大数据HCIA 01

大数据HCIA 01

单选题

（单选题）5:Hive通过JDBC连接返回查询结果

A 21345
B 24315
C 24135
D 21435
答案：B

（单选题）HBase表设计中，列族和RowKey是表设计的重要内容。下列哪个选项不适合做RowKey?

A 用户ID
B 用户名
C 身份证号
D 手机号
答案：B

（单选题）HBase中数据存储的文件格式是什么?

A HLog
B Sequencelile
C TextFile
D HFile
答案：D

（单选题）关于HDFS数据完整性保障，以下哪个机制是错误的?

A 快照机制实现了文件系统常见的快照机制，保证数据误操作时，能及时恢复
B 采用日志机制操作元数据，同时元数据存放在主备NameNode上
C 节点性能较高的DataNode会存放更多的数据
D DataNode向NameNode周期上报失败任务，NameNode发起副本重建动作以恢复丢失副本
答案：C

（单选题）HBase要实现数十亿行数百万列的存储规模，需要以下哪个选项支持?

A Redis
B ElasticSearch
C Kafka
D HDFS
答案：D

（单选题）Hadoop中，如果将yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent设置为50，下面说法错误的是?

A 一个用户提交任务，可以使用QueueA的100%的资源。
B QueueA中的每个用户最多只能获得50%的资源。
C QueueA中必须保障每个用户至少得到50%的资源。
D 如果QueueA中已经有2个用户的任务运行，这时第3个用户提交的任务需要等待释放资源。
答案：B

（单选题）在ClickHouse中创建数据表时，指定以下哪一个表引擎会导致重新启动服务器时表中的数据消失，表变为空?

A MySQL
B Kafka
C TinyLog
D Memory
答案：D

（单选题）在Hive数据存储模型中，分区和桶的关系描述错误的是哪一项?

A 分区下可再有分区或者桶
B 每个桶是一个目录
C 建表时指定桶个数，桶内可排序。
D 分区数量不固定
答案：B

（单选题）Flink程序由Source、Transformatin和Sink三部分组成，以下关于这三部分描述错误的是哪一项?

A Sink负责最终数据的输出，支持HDFS、Kafka和文本输出等
B 在各部分之间流转的数据会被封装成一个个Event
C Source主要负责数据的读取，支持HDFS、Kafka、HBase和文本等
D Transformatin主要负责对数据的转换操作
答案：B

（单选题）某公司使用用户ID做HBase的Rowkey，同时在列中还存在phone列，该列存储了用户的手机号码。该公司要求能够通过phone快速查询到用户ID，下列哪个方法比较合适?

A Get与valueFiller同时使用
B 创建二级索引
C Scan与valueFillter同时使用
D 使用Fillter
答案：B

（单选题）YARN中设置队列QueueA的最大使用资源量，需要配置哪个参数？

A yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
B yarn.scheduler.capacity.root.Queuemaximum-capacity
C yarn.scheduler.capacity.root.Queueuser-1imit-factor
D yarn.scheduler.capacity.root.Queuestate
答案：B

（单选题）某公司使用HBase存储业务数据，由于数据规模较大，所以数据存储在HBase后会导致频繁的Region分裂，为了避免这种情况，下列哪个方法比较适用？

A 增加Region大小
B 增大MemStore大小
C 对该表预分区
D 提升RegionServer性能
答案：C

（单选题）HBase命令中下列哪个选项性能最差？

A get
B put
C scan
D list
答案：C

（单选题）Kafka集群在运行期间，直接依赖于下面哪个组件？

A ZooKeeper
B HDFS
C Flume
D HBase
答案：A

（单选题）以下关于ZooKeeper的关键特性，描述错误的是哪一项？

A 原子性：更新只能成功或者失败，没有中间状态
B 可靠性：一条消息被一个server接收即完成，其他server不需要再重复接收该信息
C 等待无关性：慢的或者失效的client不会干预快速的client的请求，使得每个client都能有效的等待
D 最终一致性：无论哪个server，对外展示的均是同一个视图
答案：B

（单选题）以下关于ZooKeeper关键特性中的原子性说法正确的是?

A 一条消息被一个server接收，将极所有server接收
B 更新只能全部完成或失败，不会部分完成
C 集群中无论哪台服务器，对外展示的均是同一视图
D 客户端发送的更新会按照它们被发送的顺序进行应用
答案：B

（单选题）可以通过以下哪个命令创建节点数据?

A set /node data
B get /node
C create /node
D 1s /node
答案：C

（单选题）Spark自带的资源管理框架是?

A Docker
B YARN
C Mesos
D Standalone
答案：D

（单选题）以下选项中，哪一项用于查看ClickHouse组件命令帮助？

A clickHouse -cat
B clickHouse -h
C clickHouse -m
D clickHouse -help
答案：B

（单选题）以下关于ClickHouse的数据分片和数据副本的描述，错误的是哪一项？

A 分片之间的数据是完全相同的。
B ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制。
C 数据副本的主要目的是防止数据丢失，增加数据存储的冗余。
D 数据分片的主要目的是实现数据的水平切分。
答案：A

（单选题）Hadoop平台中，要查看YARN服务中一个application的信息，通常需要使用什么命令？

A container
B application
C application -attempt
D jar
答案：B

（单选题）对于延迟事件出现时窗口已经关闭并产出了计算结果，以下处理方法不合理的是哪一项？

A 将延迟事件视为错误消息并丢弃
B 延迟事件一定不能忽略计算
C 重新激活已经关闭的窗并重新计算以修正结果
D 将延迟事件收集起来另外处理
答案：B

（单选题）某公司使用Spark做大数据分析，某次分析任务中某RDD会被重复利用，导致重复计算多次。若要避免重复计算且能够重复利用该RDD，以下哪个选项更合适？

A Spark计算很快，无需优化
B 增大任务资源，快速结束该任务
C 写出该RDD，需要时再重新读取
D RDD执行persist 操作
答案：D

（单选题）以下关于Kafka特点描述不正确的是哪一项?

A 支持在线水平扩展
B 支持多级级联
C 高吞吐率
D 支持消息分区
答案：B

（单选题）ElasticSearch的一个索引库默认有几个分片？

A 4
B 5
C 6
D 3
答案：B

（单选题）以下关于MRS使用限制的描述，错误的是哪一项?

A 集群创建完成后，请勿随意删除或更改已使用的安全组。
B MRS集群使用的安全组请勿随意放开权限，避免被恶意访问
C 创建MRS集群时，不支持自动创建安全组，需要手动创建索全组
D IRS集群必须创建在VPC子网内。
答案：C

（单选题）以下描述中，哪个不是Hive的优点?

A 类似SQL语法，内置大量函数
B 依赖于高性能的商业服务器
C 支持自定义存储格式和自定义函数
D HiveServer支持集群模式
答案：B

（单选题）Hive在处理一些复杂的统计或者排序等复杂任务的时候，会调用以下哪个组件?

A Hadoop
B HBase
C MapReduce
D HDFS
答案：C

（单选题）以下关于HBase二级索引的描述哪一项是正确的?

A 二级索引把要查找的列与rowkey关联成一个索引
B 此时列成新的rowkey，原rowkey成为value
C 二级索引查询了2次
D 以上全都正确
答案：D

（单选题）HBase的主HMaster是如何选举的?

A HMaster为双主模式，不需要进行裁决
B 随机选取
C 由RegionServer进行裁决
D 通过ZooKeeper进行裁决
答案：D

（单选题）RDD有Transfrmatin和Actin算子，下列属于Action算子的是?

A saveAsTextFile
B filter
C map
D reduceByKey
答案：A

（单选题）关于DataSet,下列说法不正确的是?

A DataSet不需要反序列化就可执行大部分操作
B DataSet执行sort、filter、shuffle等操作需要进行反序列化
C DataSet是一个由特定域的对象组成的强类型集合
D DataSet与RDD高度类似，性能比RDD好
答案：B

（单选题）在Kafka HA中，当Partition对应的Leader宕机时，需要从Follower中选举出新Leader，具体由以下哪个角色执行?

A Controller
B Broker
C Leader
D Follower
答案：A

（单选题）下面哪一个是ElasticSearch的节点

A Cluster
B EsMaster
C Index
D EsNode
答案：D

（单选题）以下关于KrbServer及LdapServer开源增强特性的描述，错误的是哪一项？

A 集群内服务认证
B 应用开发认证
C 跨系统互信特性
D 账号身份认证
答案：D

（单选题）ZooKeeper客户端获取节点数据的命令，以下哪个是正确的

A set /node data
B get /node
C show /node
D ls /node
答案：B

（单选题）当ZooKeeper集群的节点数为5节点时，请问集群的容灾能力和多少节点是等价的

A 3
B 4
C 5
D 6
答案：D

（单选题）以下描述哪一项不是传统数据处理的瓶颈?

A 流数据的实时写入
B 数据批量处理性能不足
C 海量数据的高存储成本
D 缺乏流式数据处理能力
答案：A

多选题

（多选题）HBase中包含的一些典型的Filter有哪些?

A SingleColumValueFilter
B RowFilter
C KeyOnlyFilter
D FilterList
答案：ABCD

（多选题）下列选项对 Compation 描述正确的是哪一项?

A Compation通过消除过期数据文件减少HFile文件数
B Compation通过合并文件减少HFile文件数
C Minor触发频率相对Major较高
D 有Minor和Major两种类型
答案：ABCD

（多选题）ZKFC进程部署在HDFS中的以下哪些节点上?

A Active NameNode
B DataNode
C Standby NameNode
D 略
答案：AC

（多选题）以下哪些属于企业级大数据的应用场景?

A 供应链管理
B 内部运营管理
C 客户分析
D 营销分析
答案：ABCD

（多选题）关于华为云MRS海量数据离线分析场景描述正确的是哪几项?

A 利用Hive实现TB/PB级的数据分析
B 利用Flink实现数据采集
C 利用OBS实现低成本存储
D 通过可视化导入导出工具Loader，将数据导出到DWS，完成BI分析
答案：ACD

（多选题）以下关于Hive架构中的组件功能，描述正确的是哪些选项?

A A.Executor负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务
B B.ThriftServer提供thrift接，作为JDBC的服务端，并将Hive和其他应用程序集成起来Compiler
C C.按照任务的依赖关系分别执行Map/Reduce任务
D D.Optimizer是优化器，分为逻辑优化器和物理优化器，分别对HiveQL生成的执行计划和MapReduce任务进行优化
答案：BCD

（多选题）MergeTree用于高负载任务的最通用和功能最强大的表引擎，以下关于MergeTree的关键特征的描述，错误的是哪些项?

A 基于分区键的数据分区分块存储
B 不支持数据复制
C 不支持数据抽样
D 数据索引排序
答案：BC

（多选题）Spark有哪些特点?

A A.轻
B B.灵
C C.快
D D.巧
答案：ABCD

（多选题）下列哪些选项对HBase,读写数据的过程描述正确?

A 客户端读取数据不需要HMaster参与
B 客户端可以维护已访问过的Region位置信息加快查询
C 客户端读取数据需要HMaster参与
D 客户端不可以维护已访问过的Region位置信息加快查询
答案：AB

（多选题）下列哪些选项是action算子?

A mapPartition
B reduce
C reduceByKey
D Dcollect
答案：BD

（多选题）下列关于Hive基本操作命令的解释正确的是哪些项？

A drop table if exists T1；／／删除表T1
B alter table T1 rename t T2；／／将表T1重命名为T2
C create table if not exists T1 like T2；／／拷贝T2表，包括表里的数据，并命名为T1
D remove table T1 where id＝1；／／删除表中符合条件“id=1”的数据。
答案：AB

（多选题）ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供的功能有哪些？

A 帮助系统避免单点故障，建立可靠的应用程序
B 实现元数据持久化
C 提供分布式协作服务和维护配置信息
D 为集群提供高并发能力
答案：ACD

（多选题）关于HDFS的NameNode的功能，以下描述错误的是哪些项?

A 维护了Block ID 到DataNode本地文件的映射关系
B 存储文件内容
C 保存文件块和DataNode之间的映射关系
D 用于存储元数据
答案：AB

（多选题）执行HBase读数据业务，需要读取哪几部分数据?

A HMaster
B MemStore
C HFile
D HLog
答案：BC

（多选题）以下哪些选项属于ClickHouse的表引擎？

A CollapsingMergeTree
B GraphiteMergeTree
C AggregatingMergeTree
D VersionedCollapsingMergeTree
答案：ABCD

（多选题）某电商平台每天产生大量的交易订单数据，现在需要对这些数据中的交易金额做统计，可能会用到如下哪些组件？

A MapReduce
B MySQL
C Kafka
D Flume
答案：ABCD

（多选题）Kafka中Partition对应的Leader宕机时，需要从Follower中选举出新Leader。当所有Replica都不工作时，对数据及时间要求不高的情况下以下哪些方案可行?

A 选择第一个活过来的Replica (不一定是 ISR 成员) 作为 Leader
B 重启Kafka集群
C 等待ISR中的任一个Replica活过来，并选它作为Leader
D 在配置中增加Replica副本数量
答案：ABC

（多选题）数据操纵语言DML是包括以下哪些字句?

A 查找:SELECT
B 插入: INSERT
C 更新:UPDATE
D 删除: DELETE
答案：ABCD

（多选题）以下关于HBase中HMaster的功能描述哪些是正确的?

A Region负载均衡，Region分裂以及分裂后的Region分配
B 负责建表/修改表/删除表
C RegionServer失效后的Region迁移
D 负责RegionServer的负载均衡
答案：ABCD

（多选题）Spark框架包括哪些模块?

A Spark SQL
B Spark MLlib
C Spark Streaming
D Spark GraphX
答案：ABCD

（多选题）以下关于Flink容错机制描述错误的有哪些?

A Savepoint机制保证了实时程序运行时，即使突然遇到异常也能够进行自我恢复
B Checkpoint机制保证了实时程序运行时，即使突然遇到异常也能够进行自我恢复
C Checkpoint机制保证了程序在进行升级或者修改并发度等情况后，还能从保存的状态位继续启动恢复
D Savepoint机制保证了程序在进行升级或者修改并发度等情况后，还能从保存的状态位继续启动恢复
答案：AC

（多选题）Structured Streaming在OutPut阶段可以定义不同的数据写入方式，包括下列哪些方式?

A Complete Mode
B Append Mode
C General Mode
D Update Mode
答案：ABD

（多选题）Spark与MapReduce进行比较，下列说法正确的是哪几项?

A Spark任务的中间结果只能存储在内存
B Spark任务中shuffle不是必须的过程
C Spark任务中shuffle是必须的过程
D Spark可以缓存中间结果在内存降低磁盘IO
答案：BD

（多选题）Kafka分布式消息传递基于可靠的消息队列，包含以下哪两种主要的消息传递模式?

A 分发传递模式
B 轮询传递模式
C 点对点传递模式
D 发布订阅模式
答案：CD

（多选题）ElasticSearch支持以下哪些访问接口?

A A.PUT
B B.POST
C C.DELETE
D D.GET
答案：ABCD

（多选题）以下关于传统数据入湖面临的挑战的描述，正确的是哪些项？

A 开发难
B 成本高
C 时效差
D 资源利用率低
答案：ABCD

（多选题）MRS在基于Apache Hadoop开源软件的基础上，在主要业务部件的可靠性、性能调优等方面进行了优化和提升。以下关于MRS平台的描述，正确的是哪些项？

A MRS支持自动处理网络故障，自动恢复受影响的业务。
B 在系统进行扩容、打补丁等重大操作前，需要通过手动备份集群管理系统的数据，以便在系统故障时，恢复集群管理系统功能。
C MRS对集群管理系统Manager上的数据提供自动备份功能，根据制定的备份策略可自动备份集群上的数据。
D MRS支持将Manager、HBase上的数据自动备份到第三方服务器。
答案：ABC

（多选题）关于HDFS命名空间管理，以下选项描述正确的是哪几项?

A 对文件系统命名空间或其属性的任何更改由NameNode和DataNode共同记录
B NameNode维护文件系统命名空间
C HDFS的命名空间包含目录、文件和块
D 用户可以像使用普通文件系统一样，创建、删除、转移目录和文件
答案：BCD

（多选题）数据节点是HDFS的工作节点，以下描述哪些是其功能?

A 根据客户端或者是名称节点的调度来进行数据的存储和检索
B 向名称节点定期发送自己所存储的块的列表。
C 负责数据的存储和读取
D 记录了所有针对文件的创建、删除、重命名等操作
答案：ABC

（多选题）下图展示了HDFS的标签存储策略，观察下图，HBase的数据会被存储到哪些数据节点上?

A DataNode B
B DataNode E
C DataNode C
D DataNode A
答案：AD

（多选题）以下哪些选项属于数据治理模块域?

A 数据集成
B 数据服务
C 数据开发
D 主数据管理
答案：ABCD

（多选题）以下哪些选项属于数据治理的价值?

A 提升业务处理效率
B 解决数据安全问题
C 降低业务运营成本
D 代替管理决策
答案：ABC

判断题

（判断题）ZooKeeper支持对多个ClickHouseServer进行负载均衡，提高应用接入的高可靠性

A 正确
B 错误
答案：A

（判断题）Tez是一个支持有向无环图的分布式计算框架，Hive使用Tez引擎进行数据分析时，会将用户提交的HQL语句解析成相应的Tez任务并提交Tez行

A 正确
B 错误
答案：A

（判断题）Distributed表引擎本身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据到集群中的各个节点，分布式表需要和其他本地数据表一起协同工作

A 正确
B 错误
答案：A

（判断题）生产环境中任何一个MapRedce任务Shuffle都是不可避免的

A 正确
B 错误
答案：B

（判断题）分布式表的表结构尽量和本地表的结构一致。如果不一致，在在建表时不会报错，但在查询或者插入时可能会抛出异常

A 正确
B 错误
答案：A

（判断题）Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算，还能提供批量数据处理

A 正确
B 错误
答案：A

（判断题）ClickHuse完全使用SQL作为查询语言，提供了标准协议的SQL查询接口

A 正确
B 错误
答案：A

（判断题）Flume支持将多个Flume级联起来，同时级联节点内部支持数据复制

A 正确
B 错误
答案：A

（判断题）Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规漠数据的机制

A 正确
B 错误
答案：A

（判断题）HBase中penscanner的过程，会创建两种不同的Scanner来读取H-File和 MemStore的数据。HFile对应的Scanner为StoreFileScanner;MemStore对应的Scanner为MemStoreScanner。

A 正确
B 错误
答案：A

（判断题）ApplicationMaster 采用轮询的方式通过RPC 协议向ResourceManager 申请和领取资源

A 正确
B 错误
答案：A

（判断题）Hadoop系统中，如果HDFS文件系统的备份因子是3,，那么MapReduce每次运行的task都要从3个有副本的机器上传输需要处理的文件段.

A 正确
B 错误
答案：B

（判断题）Resurceanager采用高可用方案，当Active ResourceManager发现故障时，只能通过内置的ZooKeeper来启动Standby的ResourceManager,将其状态切换为Active。

A 正确
B 错误
答案：B

（判断题）Spark的中间数据放在内存中，对于迭代运算、批处理计算的效率更高，延迟更高

A 正确
B 错误
答案：B

（判断题）在点对点消息系统中，可由一个或多个消费者消费队列中的数据，但是一条消息只能被消费一次。

A 正确
B 错误
答案：A

（判断题）Flume是一种分布式，高可靠且高可用的服务，用于有效地收集、聚合和移动大量日志数据.

A 正确
B 错误
答案：A

（判断题）数据质量监控DQC(Data Quality ntr1)模块是对数据库里的数据质量进行质量管理的工具，可以从完整性、有效性、及时性、一致性准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。

A 正确
B 错误
答案：A

（判断题）在DataArts Studio平台中，支持自定务元模型，批量导入业务元数据，关联业务和技术元数据、全链路的血缘管理和应用。

A 正确
B 错误
答案：A

（判断题）大数据体量的不断增加，对数据存储理安全性要求越来越高，对数据的多副本与容灾机制也提出更高的要求。

A 正确
B 错误
答案：A

（判断题）Apache Ranger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行粗粒度的数据访问控制。

A 正确
B 错误
答案：B

填空题

（填空题）Hive架构中，（）组件负责对表，列和Partition等的元数据进行读写及更新操作

答案：Metastore

（填空题）HBase通过（）快速判断用户数据不存在

答案：BloomFilter

（填空题）Hbase开启了预写日志之后，在写入数据时率先写入____再写入MemStore

答案：HLog

（填空题）某公司使用Yarn的capacity调度器管理集群资源，现设置某一队列用户最低资源保障百分比为20%，该队列最多可允许____用户提交任务

答案：5

（填空题）Spark架构中，( )是核心模块

答案：SparkCore

HCIA

HCIA

发表回复取消回复