大数据HCIA 04

2026年1月6日

大数据HCIA 04

单选题

（单选题）下面哪些场景不是Flink组件擅长的？

A 批处理
B 流处理
C 数据存储
D 迭代计算
答案：C

（单选题）银行为了数据传输的可靠性，使用Flume采集数据，主要是利用Flume的哪个特性？

A 支持采集日志文件
B 事务机制
C 支持级联
D 支持在定制各类数据发送方
答案：B

（单选题）kafka-clustermirroring工具可以实现以下那些功能？

A kafka 集群数据同步方案
B kafka 单集群内数据备份
C kafka 单集群内数据恢复
D 以全部不对
答案：A

（单选题）Flume采集日志数据，若不考虑数据安全性。要达到最高采集速度，应该用什么类型的Channel？

A File Channel
B JDBC Channel
C Memory Channel
D HDFS Channel
答案：C

（单选题）以下关于ElasticSearch的特点，描述不正确的是哪一项？

A 目前只支持结构化数据查询
B 自动检测故障并保障集群的安全性和可用性
C 能立即获得搜索结果，实现了用于全文检索的倒排索引
D 支持水平扩展，可运行于成百上千台服务器上
答案：A

（单选题）下图展示了Structured Streaming的计算模型。通过观察可以得出最终T3的计算结果是？

A Cat 2；dog 4；owl 2
B Dog 1；owl 1
C Cat 2；dog 3；owl 1
D Cat 1；cat 1：Dog 2：dog 2；owl 2
答案：A

（单选题）ZooKeeper在分布式应用中的主要作用不包括以下哪个选项？

A 保证各节点上数据的一致性
B 选举Master节点
C 存储集群中服务器信息
D 分配集群资源
答案：D

（单选题）HBase在读取数据时率先读取下列哪个选项数据？

A MemStore数据
B HLog数据
C Hfile数据
D StoreFile数据
答案：A

（单选题）查看Kafka某Topic的Partition详细信息时，使用如下哪个命令？

A bin/kafka-topics. sh –list
B bin/kafka-topics. sh –describe
C bin/kafka-topics. sh –delete
D bin/kafka-topics. sh –create
答案：B

（单选题）Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听？

A ACK
B 分布式锁机制
C checkpo int
D watcher
答案：D

（单选题）以下关于MRS服务的安全认证的描述，正确的是哪一项？

A 不提供单点登录，统一了MRS系统用户和组件用户的管理及认证。
B 对登录Manager的用户进行审计。
C 支持安全协议Kerberos, MRS使用Kerberos作为帐户管理系统，并通过LDAP对帐户信息进行安全认证。
D 基于用户和角色的认证统一体系，遵从帐户/角色RBAC （Role-Based Access Control）模型，实现通过账户进行权限管理，对角色进行批量授权管理。
答案：D

（单选题）以下关于ClickHouse设计优点的描述，错误的是哪一项？

A 多核并行计算
B 向量化计算引擎
C 数据压缩比低
D 支持嵌套数据结构
答案：C

（单选题）以下关于Kerboers的优势的描述错误的是哪个？（9.10讲师校对）

A Kerboers支持双向鉴别，Kerboers的Server端通过返回Ciient发送的时间戳，向Client提供验证自己身份的手段。
B 由KDC代为发送Authenticator和Session Ticket.有效提高性能。
C 用于认证的Session key是short term key.只在一次会话中有效，有效防止暴力破解。
D 每个请求都以时间戳进行标记，有效防止重放攻击。
答案：B

（单选题）硬件故障被认为是常态，为了解决这个问题.HDFS设计了副本机制。默认情况下，一份文件，HDFS会存（）份？

A 3
B 4
C 2
D 5
答案：A

（单选题）Flume包含Source、 Channe1和Sink三大组件，以下关于这三大组件说法错误的是哪一项？

A 当Sink成功地将events发送到下一跳的Channel或最终目的时， events会从Channel移除
B Channel支持事务，提供较弱的顺序保证，可以连接多个的Source和Sink
C Sink必须作用于一个确切的Channel
D Source负责接收events或通过特殊机制产生events，并将events批量放到多个Channel中
答案：B

（单选题）以下不属于单点登录特点的是？

A 访问其他组件需要重新登录
B 提高运维和管理效率
C 为用户提供便捷服务
D 简化应用系统的开发
答案：A

（单选题）Fusionlnsight HD集群规划中,管理节点&控制节点&数据节点合一部署方案适合什么样的场景?

A 30节点以下
B 100节点以上
C 100-200节点
D 200节点以上
答案：A

（单选题）ElasticSearch有哪些查询类型？

A 基于分值数检索
B 基于元数据检索
C 基于词条检索
D 基于全文检索
答案：D

（单选题）以下关于Flink数据处理描述错误的是哪一项？

A Apache Flink它同时支持批处理和流处理，也能用来做一些基于事件的应用
B 如果处理一个事件（或一条数据）的结果只跟事件本身的内容有关，称为状态处理
C 流可以分为有界流和无界流，其中有界流可以在读取所有数据后再进行计算
D Apache Flink基本数据模型是数据流，流可以是无边界的无限流
答案：B

（单选题）以下关于分布式消息传递方式描述不正确的是哪一项?

A 在点对点消息系统中，可能会有多个消费者同时消费数据，因此不能保证数据处理的顺序
B 在点对点消息系统中，当一个消费者消费了队列中的某条数据之后，该条数据则从消息队列中删除
C 分布式消息传递有两种主要的消息传递模式，点对点传递模式、发布-订阅模式
D 在发布-订阅消息系统中，同一条数据可以被多个消费者消费，数据被消费后不会立马删除
答案：A

（单选题）在数据流处理过程中，经常使用系统时间作为某个事件的时间，关于系统时间描述错误的是哪一项?

A Processing Time结果是不可复现的，一旦流式计算版本升级甚至系统崩溃，计算将会停止
B 实际应用过程中，processing time要落后于event time
C processing time和event time之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的
D Processing Time适用于处理问题复杂、对结果可溯要求较高的场景
答案：D

（单选题）Hive运行流程包括下面几步，请选择正确的顺序1:Hive根据表类型更新HDFS或Hive仓库中的数据2:Client提交HQL命令3:YARN为群集中的应用程序分配资源，并为YARN队列中的Hive作业启用授权4:Tez执行查询5:Hive通过JDBC连接返回查询结果

A 21345
B 23415
C 24135
D 21435
答案：B

（单选题）HBase表设计中，下列哪个选项不适合做RowKey?

A 用户ID
B 用户名
C 身份证号
D 手机号
答案：B

（单选题）在ZooKeeper中可以通过以下哪个命令创建节点数据?

A set /node data
B get /node
C create /node
D ls /node
答案：C

多选题

（多选题）若HDFS单名称节点部署，可能存在哪些局限性？

A 影响基于HDFS的上层组件的功能实现
B 整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量
C 一旦这个唯一的名称节点发生故障，会导致整个集群不可用
D 名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制
答案：BCD

（多选题）FusionInsight HD产品在部署Kerberos和LDAP服务时,以下描述正确的是?

A 部署Kerberos服务之前,必须先部署LDAP服务
B LDAP服务必须和Kerberos服务部署在同—个节点
C Kerberos服务和LDAP服务部署同一个节点利于数据访问,有助于性能提升
D LDAP服务可以多个集群共享
答案：D

（多选题）HBase集群定时执行Compaction的目的是什么？

A 提升数据读取性能。
B 减少同一个Region的文件数目。
C 减少同一个Region同一个ColumrFamily下的文件数目。
D 提升数据写入能力
答案：AC

（多选题）以下选项中，属于HDFS架构关键特性的是?

A 健壮机制
B 多方式访问机制
C HA高可靠性
D 元数据持久化机制
答案：ABCD

（多选题）HBase可用于下列哪些应用场景？

A 时序数据存储
B 消息/订单存储
C 好友推荐
D 用户画像
答案：ABD

（多选题）在MRS服务中，关于Kafka组件说法正确的是？

A Karka的Producer发送消息时，可以指定该消息被哪个Consumer消费。
B Kaka会将元数据信息存放到ZooKeeper上。
C 在创建Topic时，本数不得大于当前存活的Braker实例个数，否则创建Topic将会失败。
D Kaka安装完成后就不能再配置数据存放目录。
答案：ABCD

（多选题）关于HDFS中Name Node的作用描述的正确的是?

A 管理HDFS的名称空间(NameSpace )
B 配置副本策略通常为3份
C 处理客户端读写请求
D 执行数据块的读/写操作
答案：ABC

（多选题）下列哪些措施是为了保障数据的完整性？

A 元数据可靠性保证
B 安全模式
C 集群数据均衡
D 重建失效数据盘的副本数据
答案：ABCD

（多选题）下列关于Flink中Transformation的说法正确的是？

A 可以通过window设定时间窗口
B flatMap可以对文本进行切分
C keyBy是将源头数据按照key进行分组，以保证同一个key的源数据分到同样的组中
D filter操作是对每个元素执行boolean函数
答案：ABCD

（多选题）在数据流处理过程中，每个事件的时间可以分为以下哪些种类？

A delay time，即事件发生到处理的延迟时间
B processing time，即事件被系统处理的时间
C lingestion time.即事件到达流处理系统的时间
D event time，即事件发生时的时间
答案：BCD

（多选题）下列选项对列族描述正确的是？

A 列族也有版本号
B 由若干列组成
C 一个列族最多容纳3个列
D 是基本的访问控制单元
答案：ABD

（多选题）关于HBase组件的描述，正确的是？

A 是一种NoSQL数据
B 是分布式的
C 是面向列的
D 存储数据是以K-v的形式
答案：ABCD

（多选题）以下关于Loader Server的主要功能描述正确的有哪些选项？

A 执行Loader作业
B 管理连接器和元数据
C 处理客户端请求
D 监控Loader作业状态
答案：ABD

（多选题）下列属于Dws的典型应用场景的是

A 数据集市
B CRM/ERP
C 交易系统
D 企业级数据仓库
答案：AD

（多选题）以下哪些选项不是企业的主数据？

A 业务活动产生的合同、计划、单据等结果或规则数据
B 经过加工、计算、汇总后的指标数据
C 描述产品、客户、人员、组织等业务实体的档案数据
D 生产线上由设备自动采集的感知、检测数据
答案：ABD

（多选题）Gs_dump和gs_dumpall的异同点是

A 二者都支持纯文本格式数据的导出。
B ds_dump只支持纯文本格式的数据导出，dsdumpall支持多种数据格式的数据导出。
C 二者都支持公共全局对象的数据导出。
D ds_dump 针对的是单个数据库，ds_dumpall针对的是所有数据库。
答案：AD

（多选题）Redis数据持久化技术有RDB和AOF，以下描述正确的是哪些选项？

A Rdb方式的持久化是通过快照完成的
B RDB和AOF可单独使用，也可以配合使用
C RDB方式是默认开启的，而AOF功能需要另外开启
D AOF方式的持久化是通过日志文件的方式完成的
答案：ABCD

（多选题）在Kafka中，以下消息传输语义中不会导致消息丢失的是哪些选项？

A 最多一次（At Most Once）
B 最少一次（At Lease Once）
C 超过一次（More Than Once）
D 仅有一次（Exactly Once）
答案：BD

（多选题）某大型企业需要做日志分析、运维监控、搜索与推荐、数据库加速，可为该企业推荐哪些服务？

A 云搜索服务css
B 数据仓库服务DWS
C 数据湖治理中心DGC
D MapReduce服务
答案：ABCD

（多选题）ElasticSearch对有结构化、半结构化、非结构化类型的数据有哪些处理能力？

A 写入的数据可以实时的进行检索
B 进行清洗、分词、建立倒排索引等一系列操作
C 提供全文检索的能力，条件可以包括词或短语
D 数据写入时可选重删和压缩功能
答案：ABC

（多选题）下图描述了RDD之间的依赖关系，其中有哪些是宽依赖？

A map:C->D
B groupby:A->B
C join:B &F->G
D union:D &E->F
答案：BC

（多选题）FusionlnsightManager的主要功能有以下哪些?

A 数据集成
B 系统管理
C 安全管理
D 服务治理
答案：BCD

（多选题）Yarn支持下列哪些调度器？

A Mesos
B FIFO
C Capacity
D Fair
答案：BCD

（多选题）MRS服务中，通过Loader数据转换引擎，可实现数据的哪些操作？

A 字符串剪切
B 字段类型转换
C 字符串反序
D 字段合并
答案：ACD

（多选题）Flume由哪三部分组成?

A Master
B Sink
C Source
D Channel
答案：BCD

（多选题）下图展示了 HDFS 的标签存储策略，观察下图，HBase 的数据会被存储到哪些数据节点

A DataNode B
B DataNode E
C DataNode C
D DataNode A
答案：AD

（多选题）通过配置以下哪些参数可清理Kafka中产生的日志？

A log. cleanup. policy
B log. retention. hours
C server. properties
D log. retention. Bytes
答案：ABD

（多选题）ElasticSearch支持以下哪些访问接口?

A PUT
B POST
C DELETE
D GET
答案：ABCD

判断题

（判断题）为减少写入磁盘的数据量， MapReduce支持对MOF（MapOutFile）进行压缩后再写入。

A 正确
B 错误
答案：A

（判断题）华为云鲲鹏云服务基于鲲鹏处理器等多元基础设施，涵盖裸机，虚机，容器等形态，具备多核高并发特点，非常适合AI、大数据、HPC、云手机/云游戏等场景。

A 正确
B 错误
答案：A

（判断题）Flume架构中，一个Sink可以连接多个Channel。

A 正确
B 错误
答案：A

（判断题）数据质量要求各业务部门对相应数据领域的数据质量全权负责，按业务需求设计数据质量标准，制定数据质量管控目标，并遵循企业数据治理费求进行数据质量度量，制定符合各自业务情况的数据质量政策及数据质量相关的改进计划，持续进行数据质量管控.

A 正确
B 错误
答案：A

（判断题）概念视图里HBase表可以被看成是一个稀疏的行的集合。

A 正确
B 错误
答案：A

（判断题）RDB支持索引，HBase不支持索引。

A 正确
B 错误
答案：B

（判断题）数据集市与数据湖最大的区别是，各个集市的数据无法互通，也可能存在重复，相比数据湖，数据集市更像一个个数据烟囱。

A 正确
B 错误
答案：A

（判断题）二级索引为HBase提供了按照某些列的值进行索引的能力。二级索引先查索引表，再定位到数据表中的位置，不用全表扫描，时延小。

A 正确
B 错误
答案：A

（判断题）Elasticsearch索引HBase数据是将HBase数据写到HDFS之后， Elasticsearch再建立相应的HBase索引数据，实现HBase数据的全文检索。

A 正确
B 错误
答案：B

（判断题）HBase数据的存储在物理上是分列族存储的。

A 正确
B 错误
答案：A

（判断题）MapReduce的核心理念是将一个大的计算任务分解到集群每个节点上。充分运用集群资源，缩短运行时间。

A 正确
B 错误
答案：A

（判断题）Spark Streaming容错机制是指RDD中任意的Partition出错，都可以根据其父RDD重新计算生成，如果父RDD丢失，则需要去磁盘中查找原始数据。

A 正确
B 错误
答案：A

（判断题）客户端往任意Zookeeper节点写数据， Zookeeper需要将数据完全同步到其他节点，才可以返回给客户端写成功。

A 正确
B 错误
答案：B

（判断题）Flume-NG由一个个agent来组成，而每个agent由Source, Channel, Sink三个模块组成。其中Source负责接收数据. Channel负责数据的传输，Sink则负责数据向下一端的发送。

A 正确
B 错误
答案：A

（判断题）Loader作业的执行过程包括配置数据源位置及数据源属性、从源数据到目标数据的转换规则、目标端属性。

A 正确
B 错误
答案：B

（判断题）Spark根据RDD的依赖关系来划分Stage，调度器从DAG图末端出发，逆向遍历整个依赖关系链，遇到窄依赖就断开，遇到宽依赖就将其加入当前Stage。

A 正确
B 错误
答案：B

（判断题）HBase组件中，数据读写服务需要连接Master执行。

A 正确
B 错误
答案：B

（判断题）Flink用DataStream来表示程序中的流式数据，用户可以认为它们是含有重复数据的可修改的集合（collection）， DataStream中元素的数量是无限的。

A 正确
B 错误
答案：A

（判断题）Zookeeper选举时，当某一个实例获得了半数以上的票数时，则变为leader

A 正确
B 错误
答案：A

（判断题）MapReduce在Map阶段的combine是一个预分组过程，是可选的。

A 正确
B 错误
答案：A

（判断题）在Fusioninsight HD系统，Loader作业运行过程中，如果产生脏数据,Loader作业执行结果的状态一定是失败。

A 正确
B 错误
答案：B

（判断题）Topology的处理逻辑都在bolt中。

A 正确
B 错误
答案：A

（判断题）Kerberos只能对集群内的服务提供安全认证。

A 正确
B 错误
答案：B

（判断题）Redis判断一个键是否存在使用exist命令。

A 正确
B 错误
答案：A

（判断题）Redis采用无中心自组织的结构，节点之间使用Gossip协议来交换节点状态信息。

A 正确
B 错误
答案：A

（判断题）Yarn作为MapReduce的资源管理器，其依赖HDFS。

A 正确
B 错误
答案：B

（判断题）MapReduce过程中，默认情况下，一个分片就是一个块，也是一个Map Task.

A 正确
B 错误
答案：A

填空题

（填空题）ElasticSearch采用______方式索引数据

答案：倒排索引

（填空题）RegionServer故障时,由（）对已故障的RegionServer上的Region进行迁移。

答案：HMaster

（填空题）Yarn支持以下哪些调度器()()()

答案：Fair

复习

HCIA

Leave a comment