大数据HCIA 04

2026年1月6日

大数据HCIA 04

单选题

（单选题）下面哪些场景不是Flink组件擅长的？

A 批处理
B 流处理
C 数据存储
D 迭代计算
答案：C

（单选题）银行为了数据传输的可靠性，使用Flume采集数据，主要是利用Flume的哪个特性？

A 支持采集日志文件
B 事务机制
C 支持级联
D 支持在定制各类数据发送方
答案：B

（单选题）kafka-clustermirroring工具可以实现以下那些功能？

A kafka 集群数据同步方案
B kafka 单集群内数据备份
C kafka 单集群内数据恢复
D 以全部不对
答案：A

（单选题）Flume采集日志数据，若不考虑数据安全性。要达到最高采集速度，应该用什么类型的Channel？

A File Channel
B JDBC Channel
C Memory Channel
D HDFS Channel
答案：C

（单选题）以下关于ElasticSearch的特点，描述不正确的是哪一项？

A 目前只支持结构化数据查询
B 自动检测故障并保障集群的安全性和可用性
C 能立即获得搜索结果，实现了用于全文检索的倒排索引
D 支持水平扩展，可运行于成百上千台服务器上
答案：A

（单选题）下图展示了Structured Streaming的计算模型。通过观察可以得出最终T3的计算结果是？

A Cat 2；dog 4；owl 2
B Dog 1；owl 1
C Cat 2；dog 3；owl 1
D Cat 1；cat 1：Dog 2：dog 2；owl 2
答案：A

（单选题）ZooKeeper在分布式应用中的主要作用不包括以下哪个选项？

A 保证各节点上数据的一致性
B 选举Master节点
C 存储集群中服务器信息
D 分配集群资源
答案：D

（单选题）HBase在读取数据时率先读取下列哪个选项数据？

A MemStore数据
B HLog数据
C Hfile数据
D StoreFile数据
答案：A

（单选题）查看Kafka某Topic的Partition详细信息时，使用如下哪个命令？

A bin/kafka-topics. sh –list
B bin/kafka-topics. sh –describe
C bin/kafka-topics. sh –delete
D bin/kafka-topics. sh –create
答案：B

（单选题）Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听？

A ACK
B 分布式锁机制
C checkpo int
D watcher
答案：D

（单选题）以下关于MRS服务的安全认证的描述，正确的是哪一项？

A 不提供单点登录，统一了MRS系统用户和组件用户的管理及认证。
B 对登录Manager的用户进行审计。
C 支持安全协议Kerberos, MRS使用Kerberos作为帐户管理系统，并通过LDAP对帐户信息进行安全认证。
D 基于用户和角色的认证统一体系，遵从帐户/角色RBAC （Role-Based Access Control）模型，实现通过账户进行权限管理，对角色进行批量授权管理。
答案：D

（单选题）以下关于ClickHouse设计优点的描述，错误的是哪一项？

A 多核并行计算
B 向量化计算引擎
C 数据压缩比低
D 支持嵌套数据结构
答案：C

（单选题）以下关于Kerboers的优势的描述错误的是哪个？（9.10讲师校对）

A Kerboers支持双向鉴别，Kerboers的Server端通过返回Ciient发送的时间戳，向Client提供验证自己身份的手段。
B 由KDC代为发送Authenticator和Session Ticket.有效提高性能。
C 用于认证的Session key是short term key.只在一次会话中有效，有效防止暴力破解。
D 每个请求都以时间戳进行标记，有效防止重放攻击。
答案：B

（单选题）硬件故障被认为是常态，为了解决这个问题.HDFS设计了副本机制。默认情况下，一份文件，HDFS会存（）份？

A 3
B 4
C 2
D 5
答案：A

（单选题）Flume包含Source、 Channe1和Sink三大组件，以下关于这三大组件说法错误的是哪一项？

A 当Sink成功地将events发送到下一跳的Channel或最终目的时， events会从Channel移除
B Channel支持事务，提供较弱的顺序保证，可以连接多个的Source和Sink
C Sink必须作用于一个确切的Channel
D Source负责接收events或通过特殊机制产生events，并将events批量放到多个Channel中
答案：B

（单选题）以下不属于单点登录特点的是？

A 访问其他组件需要重新登录
B 提高运维和管理效率
C 为用户提供便捷服务
D 简化应用系统的开发
答案：A

（单选题）Fusionlnsight HD集群规划中,管理节点&控制节点&数据节点合一部署方案适合什么样的场景?

A 30节点以下
B 100节点以上
C 100-200节点
D 200节点以上
答案：A

（单选题）ElasticSearch有哪些查询类型？

A 基于分值数检索
B 基于元数据检索
C 基于词条检索
D 基于全文检索
答案：D

（单选题）以下关于Flink数据处理描述错误的是哪一项？

A Apache Flink它同时支持批处理和流处理，也能用来做一些基于事件的应用
B 如果处理一个事件（或一条数据）的结果只跟事件本身的内容有关，称为状态处理
C 流可以分为有界流和无界流，其中有界流可以在读取所有数据后再进行计算
D Apache Flink基本数据模型是数据流，流可以是无边界的无限流
答案：B

（单选题）以下关于分布式消息传递方式描述不正确的是哪一项?

A 在点对点消息系统中，可能会有多个消费者同时消费数据，因此不能保证数据处理的顺序
B 在点对点消息系统中，当一个消费者消费了队列中的某条数据之后，该条数据则从消息队列中删除
C 分布式消息传递有两种主要的消息传递模式，点对点传递模式、发布-订阅模式
D 在发布-订阅消息系统中，同一条数据可以被多个消费者消费，数据被消费后不会立马删除
答案：A

（单选题）在数据流处理过程中，经常使用系统时间作为某个事件的时间，关于系统时间描述错误的是哪一项?

A Processing Time结果是不可复现的，一旦流式计算版本升级甚至系统崩溃，计算将会停止
B 实际应用过程中，processing time要落后于event time
C processing time和event time之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的
D Processing Time适用于处理问题复杂、对结果可溯要求较高的场景
答案：D

（单选题）Hive运行流程包括下面几步，请选择正确的顺序1:Hive根据表类型更新HDFS或Hive仓库中的数据2:Client提交HQL命令3:YARN为群集中的应用程序分配资源，并为YARN队列中的Hive作业启用授权4:Tez执行查询5:Hive通过JDBC连接返回查询结果

A 21345
B 23415
C 24135
D 21435
答案：B

（单选题）HBase表设计中，下列哪个选项不适合做RowKey?

A 用户ID
B 用户名
C 身份证号
D 手机号
答案：B

（单选题）在ZooKeeper中可以通过以下哪个命令创建节点数据?

A set /node data
B get /node
C create /node
D ls /node
答案：C

多选题

（多选题）若HDFS单名称节点部署，可能存在哪些局限性？

A 影响基于HDFS的上层组件的功能实现
B 整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量
C 一旦这个唯一的名称节点发生故障，会导致整个集群不可用
D 名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制
答案：BCD

（多选题）FusionInsight HD产品在部署Kerberos和LDAP服务时,以下描述正确的是?

A 部署Kerberos服务之前,必须先部署LDAP服务
B LDAP服务必须和Kerberos服务部署在同—个节点
C Kerberos服务和LDAP服务部署同一个节点利于数据访问,有助于性能提升
D LDAP服务可以多个集群共享
答案：D

（多选题）HBase集群定时执行Compaction的目的是什么？

A 提升数据读取性能。
B 减少同一个Region的文件数目。
C 减少同一个Region同一个ColumrFamily下的文件数目。
D 提升数据写入能力
答案：AC

（多选题）以下选项中，属于HDFS架构关键特性的是?

A 健壮机制
B 多方式访问机制
C HA高可靠性
D 元数据持久化机制
答案：ABCD

（多选题）HBase可用于下列哪些应用场景？

A 时序数据存储
B 消息/订单存储
C 好友推荐
D 用户画像
答案：ABD

（多选题）在MRS服务中，关于Kafka组件说法正确的是？

A Karka的Producer发送消息时，可以指定该消息被哪个Consumer消费。
B Kaka会将元数据信息存放到ZooKeeper上。
C 在创建Topic时，本数不得大于当前存活的Braker实例个数，否则创建Topic将会失败。
D Kaka安装完成后就不能再配置数据存放目录。
答案：ABCD

（多选题）关于HDFS中Name Node的作用描述的正确的是?

A 管理HDFS的名称空间(NameSpace )
B 配置副本策略通常为3份
C 处理客户端读写请求
D 执行数据块的读/写操作
答案：ABC

（多选题）下列哪些措施是为了保障数据的完整性？

A 元数据可靠性保证
B 安全模式
C 集群数据均衡
D 重建失效数据盘的副本数据
答案：ABCD

（多选题）下列关于Flink中Transformation的说法正确的是？

A 可以通过window设定时间窗口
B flatMap可以对文本进行切分
C keyBy是将源头数据按照key进行分组，以保证同一个key的源数据分到同样的组中
D filter操作是对每个元素执行boolean函数
答案：ABCD

（多选题）在数据流处理过程中，每个事件的时间可以分为以下哪些种类？

A delay time，即事件发生到处理的延迟时间
B processing time，即事件被系统处理的时间
C lingestion time.即事件到达流处理系统的时间
D event time，即事件发生时的时间
答案：BCD

（多选题）下列选项对列族描述正确的是？

A 列族也有版本号
B 由若干列组成
C 一个列族最多容纳3个列
D 是基本的访问控制单元
答案：ABD

（多选题）关于HBase组件的描述，正确的是？

A 是一种NoSQL数据
B 是分布式的
C 是面向列的
D 存储数据是以K-v的形式
答案：ABCD

（多选题）以下关于Loader Server的主要功能描述正确的有哪些选项？

A 执行Loader作业
B 管理连接器和元数据
C 处理客户端请求
D 监控Loader作业状态
答案：ABD

（多选题）下列属于Dws的典型应用场景的是

A 数据集市
B CRM/ERP
C 交易系统
D 企业级数据仓库
答案：AD

（多选题）以下哪些选项不是企业的主数据？

A 业务活动产生的合同、计划、单据等结果或规则数据
B 经过加工、计算、汇总后的指标数据
C 描述产品、客户、人员、组织等业务实体的档案数据
D 生产线上由设备自动采集的感知、检测数据
答案：ABD

（多选题）Gs_dump和gs_dumpall的异同点是

A 二者都支持纯文本格式数据的导出。
B ds_dump只支持纯文本格式的数据导出，dsdumpall支持多种数据格式的数据导出。
C 二者都支持公共全局对象的数据导出。
D ds_dump 针对的是单个数据库，ds_dumpall针对的是所有数据库。
答案：AD

（多选题）Redis数据持久化技术有RDB和AOF，以下描述正确的是哪些选项？

A Rdb方式的持久化是通过快照完成的
B RDB和AOF可单独使用，也可以配合使用
C RDB方式是默认开启的，而AOF功能需要另外开启
D AOF方式的持久化是通过日志文件的方式完成的
答案：ABCD

（多选题）在Kafka中，以下消息传输语义中不会导致消息丢失的是哪些选项？

A 最多一次（At Most Once）
B 最少一次（At Lease Once）
C 超过一次（More Than Once）
D 仅有一次（Exactly Once）
答案：BD

（多选题）某大型企业需要做日志分析、运维监控、搜索与推荐、数据库加速，可为该企业推荐哪些服务？

A 云搜索服务css
B 数据仓库服务DWS
C 数据湖治理中心DGC
D MapReduce服务
答案：ABCD

（多选题）ElasticSearch对有结构化、半结构化、非结构化类型的数据有哪些处理能力？

A 写入的数据可以实时的进行检索
B 进行清洗、分词、建立倒排索引等一系列操作
C 提供全文检索的能力，条件可以包括词或短语
D 数据写入时可选重删和压缩功能
答案：ABC

（多选题）下图描述了RDD之间的依赖关系，其中有哪些是宽依赖？

A map:C->D
B groupby:A->B
C join:B &F->G
D union:D &E->F
答案：BC

（多选题）FusionlnsightManager的主要功能有以下哪些?

A 数据集成
B 系统管理
C 安全管理
D 服务治理
答案：BCD

（多选题）Yarn支持下列哪些调度器？

A Mesos
B FIFO
C Capacity
D Fair
答案：BCD

（多选题）MRS服务中，通过Loader数据转换引擎，可实现数据的哪些操作？

A 字符串剪切
B 字段类型转换
C 字符串反序
D 字段合并
答案：ACD

（多选题）Flume由哪三部分组成?

A Master
B Sink
C Source
D Channel
答案：BCD

（多选题）下图展示了 HDFS 的标签存储策略，观察下图，HBase 的数据会被存储到哪些数据节点

A DataNode B
B DataNode E
C DataNode C
D DataNode A
答案：AD

（多选题）通过配置以下哪些参数可清理Kafka中产生的日志？

A log. cleanup. policy
B log. retention. hours
C server. properties
D log. retention. Bytes
答案：ABD

（多选题）ElasticSearch支持以下哪些访问接口?

A PUT
B POST
C DELETE
D GET
答案：ABCD

判断题

（判断题）为减少写入磁盘的数据量， MapReduce支持对MOF（MapOutFile）进行压缩后再写入。

A 正确
B 错误
答案：A

（判断题）华为云鲲鹏云服务基于鲲鹏处理器等多元基础设施，涵盖裸机，虚机，容器等形态，具备多核高并发特点，非常适合AI、大数据、HPC、云手机/云游戏等场景。

A 正确
B 错误
答案：A

（判断题）Flume架构中，一个Sink可以连接多个Channel。

A 正确
B 错误
答案：A

（判断题）数据质量要求各业务部门对相应数据领域的数据质量全权负责，按业务需求设计数据质量标准，制定数据质量管控目标，并遵循企业数据治理费求进行数据质量度量，制定符合各自业务情况的数据质量政策及数据质量相关的改进计划，持续进行数据质量管控.

A 正确
B 错误
答案：A

（判断题）概念视图里HBase表可以被看成是一个稀疏的行的集合。

A 正确
B 错误
答案：A

（判断题）RDB支持索引，HBase不支持索引。

A 正确
B 错误
答案：B

（判断题）数据集市与数据湖最大的区别是，各个集市的数据无法互通，也可能存在重复，相比数据湖，数据集市更像一个个数据烟囱。

A 正确
B 错误
答案：A

（判断题）二级索引为HBase提供了按照某些列的值进行索引的能力。二级索引先查索引表，再定位到数据表中的位置，不用全表扫描，时延小。

A 正确
B 错误
答案：A

（判断题）Elasticsearch索引HBase数据是将HBase数据写到HDFS之后， Elasticsearch再建立相应的HBase索引数据，实现HBase数据的全文检索。

A 正确
B 错误
答案：B

（判断题）HBase数据的存储在物理上是分列族存储的。

A 正确
B 错误
答案：A

（判断题）MapReduce的核心理念是将一个大的计算任务分解到集群每个节点上。充分运用集群资源，缩短运行时间。

A 正确
B 错误
答案：A

（判断题）Spark Streaming容错机制是指RDD中任意的Partition出错，都可以根据其父RDD重新计算生成，如果父RDD丢失，则需要去磁盘中查找原始数据。

A 正确
B 错误
答案：A

（判断题）客户端往任意Zookeeper节点写数据， Zookeeper需要将数据完全同步到其他节点，才可以返回给客户端写成功。

A 正确
B 错误
答案：B

（判断题）Flume-NG由一个个agent来组成，而每个agent由Source, Channel, Sink三个模块组成。其中Source负责接收数据. Channel负责数据的传输，Sink则负责数据向下一端的发送。

A 正确
B 错误
答案：A

（判断题）Loader作业的执行过程包括配置数据源位置及数据源属性、从源数据到目标数据的转换规则、目标端属性。

A 正确
B 错误
答案：B

（判断题）Spark根据RDD的依赖关系来划分Stage，调度器从DAG图末端出发，逆向遍历整个依赖关系链，遇到窄依赖就断开，遇到宽依赖就将其加入当前Stage。

A 正确
B 错误
答案：B

（判断题）HBase组件中，数据读写服务需要连接Master执行。

A 正确
B 错误
答案：B

（判断题）Flink用DataStream来表示程序中的流式数据，用户可以认为它们是含有重复数据的可修改的集合（collection）， DataStream中元素的数量是无限的。

A 正确
B 错误
答案：A

（判断题）Zookeeper选举时，当某一个实例获得了半数以上的票数时，则变为leader

A 正确
B 错误
答案：A

（判断题）MapReduce在Map阶段的combine是一个预分组过程，是可选的。

A 正确
B 错误
答案：A

（判断题）在Fusioninsight HD系统，Loader作业运行过程中，如果产生脏数据,Loader作业执行结果的状态一定是失败。

A 正确
B 错误
答案：B

（判断题）Topology的处理逻辑都在bolt中。

A 正确
B 错误
答案：A

（判断题）Kerberos只能对集群内的服务提供安全认证。

A 正确
B 错误
答案：B

（判断题）Redis判断一个键是否存在使用exist命令。

A 正确
B 错误
答案：A

（判断题）Redis采用无中心自组织的结构，节点之间使用Gossip协议来交换节点状态信息。

A 正确
B 错误
答案：A

（判断题）Yarn作为MapReduce的资源管理器，其依赖HDFS。

A 正确
B 错误
答案：B

（判断题）MapReduce过程中，默认情况下，一个分片就是一个块，也是一个Map Task.

A 正确
B 错误
答案：A

填空题

（填空题）ElasticSearch采用______方式索引数据

答案：倒排索引

（填空题）RegionServer故障时,由（）对已故障的RegionServer上的Region进行迁移。

答案：HMaster

（填空题）Yarn支持以下哪些调度器()()()

答案：Fair

复习

HCIA

Leave a comment

大数据HCIA 03

2026年1月6日

大数据HCIA 03

单选题

（单选题）以下哪个选项不是元数据管理的目的?

A 数据平台建设
B 业务系统建设
C 信息资源规划
D 数据价值挖掘
答案：B

（单选题）Flume中数据压缩特性主要是基于以下哪种目的?

A 提高可靠性
B 增强安全性
C 降低磁盘IO
D 降低网络IO
答案：D

（单选题）MapReduce、Spark和Flink都可以同时支持以下哪种数据处理方式?

A Kv查询
B 批处理
C 流处理
D 实时检索
答案：B

（单选题）ElasticSearch的索引可以存储在多种存储类型，而以下哪种存储类型不支持?

A 共享文件系统
B HDFS
C 对象存储
D 本地文件系统
答案：B

（单选题）MapReduce程序由Map和Reduce两部分组成，现由MapReduce程序，其有5个reduce任务，该程序最终输出多少个结果文件?

A 2
B 4
C 5
D 3
答案：C

（单选题）默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?

A 随机生成
B 用户指定
C 根据资源自行生成任务数
D 该任务所计算的数据块数量
答案：B

（单选题）Capacity调度器为每个队列分配资源，下列哪个选项是队列内的资源调度策略?

A Fair
B Mesos
C FIFO
D Capacity
答案：C

（单选题）可视化运维是clickHouse非常重要的特性，以下关于c1ickHouse可视化运维的描述，错误的是哪一项?

A 提供日志级别可视化配置、实时动态生效
B 华为增加审计日志，针对DDL、安全、业务操作等内容记录审计
C 可以选择可视化日志下载、并可以选择下载的节点以及下载的日志时间段，后台下载日志。
D 提供ClickHouse安装配置、启停、客户端、70+项监控告警指标、健康检查等可视化运维手段。
答案：C

（单选题）在ZooKeeper和YARN的协同工作中，当Active ResourceManager产生故障时时, StandbyResourceManager会从以下哪个目录中获取Application相关信息?

A Warehouse
B Storage
C Statestore
D Metastore
答案：C

（单选题）以下哪一个因素助力了大数据时代的蓬勃发展?

A 硬件成本的降低和网络带宽的提升
B 云计算的兴起
C 智能终端的普及和社交需求的提升
D 以上全都正确
答案：D

（单选题）Flume需要实时采集点击流日志到Kafka，用于后续的实时分析处理，选择以下哪种Source类型进行数据采集最为合适?

A http source
B spooling directory source
C syslog source
D kafka source
答案：B

（单选题）默认情况下Flink不开启检查点，用户需要在程序中通过调用以下那种方法配置和开启检查点?

A env.getCheckpointConfig().setCheckpointingTimeout(60000)
B env.enableCheckpointing(1000）
C env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)
D env.startSetCheckpointing(1000)
答案：B

（单选题）YARN的基于标签调度，是对下列选项中的哪个进行标签化?

A AppMaster
B NodeManager
C Container
D ResourceManager
答案：B

（单选题）某公司开展大数据业务，其不但要使用MapReduce做离线分析还要使用Spark做实时分析。若使用Yarn做统一的资源管理，调度器如何选择?

A 使用Capacity调度器
B 使用FIFO调度器
C 使用Fair调度器
D 使用Mesos调度器
答案：A

（单选题）下列哪个不是HBase读取数据流程中涉及的角色或服务?

A HDFS
B ZooKeeper
C HRegionServer
D HMaster
答案：D

（单选题）HBase的主HMaster是如如何选举的?

A 通过ZooKeeper进行裁决
B 由RegionServer进行裁决
C HMaster为双主模式，不需要进行裁决
D 随机选取
答案：A

（单选题）HBase中Region的物理存储单元是什么?

A Column
B ColumnFamily
C Row
D Region
答案：B

（单选题）HDFS中NameNode的主备仲裁，是由哪个组件控制的?

A HDFS Client
B Resource Manager
C Node Manager
D ZooKeeper Failover Controller
答案：D

（单选题）HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输，以下关于HDFS的通讯协议描述错误的是

A 所有的HDFS通信协议都是构建在TCP/IP协议基础之上
B 名称节点和数据节点之间则使用名称节点协议进行交互
C 名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求
D 客户端与数据节点的交互是通过RPC来实现的
答案：B

多选题

（多选题）以下关于建设私有云大数据平台的痛点的描述，正确的是哪些项?

A 安全性差，无灾备能力
B 提前建设，建设成本高
C 维护难度大
D 业务上线速度慢
答案：ABCD

（多选题）ElasticSearch扩容的场景包括哪些?

A 集群数据量诚少
B ElasticSearch单实例的索引数据太大
C 节点需要重新安装操作系统
D 物理资源消耗过大
答案：BD

（多选题）在MRS集群中，Spark主要与以下哪些组件进行交互?

A YARN
B Hive
C Hdfs
D ZooKeeper
答案：ABCD

（多选题）在DataArts Studio平台中，以下哪些选项属于权限访问控制的功能特性?

A 集中式访问控制
B 详细的授权、鉴权日志审计
C 实现对MRS服务中的资源进行精细访问控制
D 丰富的权限策略配置
答案：ABCD

（多选题）以下关于Hudi支持的视图的描述，正确的是哪些项?

A 增量视图
B 写优化视图
C 读优化视图
D 实时视图
答案：ACD

（多选题）下面哪些是ElasticSearch的特点?

A 高可靠性
B 高容错性
C 高性能
D 高扩展性
答案：ABCD

（多选题）Flink支持的时间操作类型包括以下哪些选项?

A 处理时间
B 结束时间
C 采集时间
D 事件时间
答案：ACD

（多选题）下列选项中，哪个是Spark的重要角色?

A Driver
B NodeManager
C ResourceManager
D DataNode
答案：A

（多选题）Flink流式处理的数据源类型包括?

A Socket streams
B JDBC
C Files
D Collections
答案：ABCD

（多选题）某MapReduce程序运行时，AppMaster发生故障。下列哪些选项对该任务描述正确?

A 任务仍可运行
B 任务立即停止
C AppMaster不再启动
D App Master再次启动
答案：AD

判断题

（判断题）HBase中当一个Region的size逐渐变大时，它可能会被修剪。

A 正确
B 错误
答案：A

（判断题）DataSet从Spark2.0正式启用，兼具DataFrame和RDD的特点，RDD也不再使用。

A 正确
B 错误
答案：B

（判断题）Spark和Hive同时部署时，若Spark SQL要获取Hive元数据，Spark SQL需要在启动后手动执行同步操作。

A 正确
B 错误
答案：B

（判断题）Spark和和Hadoop一样不适用于迭代计算。

A 正确
B 错误
答案：B

（判断题）在MapReduce编程中，业务逻辑一般需要自行写代码实现mapper和reducer。

A 正确
B 错误
答案：A

（判断题）这是一种可以存储、查询和Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL),分析存储在Hadoop中的大规模数据的机制。

A 正确
B 错误
答案：A

（判断题）Elasticsearch默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘

A 正确
B 错误
答案：A

（判断题）Flume在传输数据过程中，如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外一路上继续传输。

A 正确
B 错误
答案：A

（判断题）Kafka中，每个Consumer都属于一个Consumer Group，每条消息只能被Consumer Group中的一个Consumer消费，但可以被多个Consumer Group消费。

A 正确
B 错误
答案：A

（判断题）Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应个文件夹，该文件夹下存储这个Partition的所有消息。

A 正确
B 错误
答案：A

（判断题）Flink中基于异步轻量级的分布式快照技术提供了Checkpoints容错机制，分布式快照可以将不同时间点Task/Operator的状态数据全局统一快照处理。

A 正确
B 错误
答案：A

（判断题）HBase的BloomFilter是用来过滤数据的

A 正确
B 错误
答案：A

（判断题）HDFS中，块(Block)的大小远远大于普通文件系统的最小单元，可以最小化寻址开销。

A 正确
B 错误
答案：A

（判断题）MRS服务100%兼容开源大数据生态，结合周边丰富的数据及应用迁移工具，能帮助客户快速完成自建平台的平滑迁移，整个迁移过程可做到“代码0修改，业务0中断”。

A 正确
B 错误
答案：A

（判断题）Spark任务的每个Stage划分为几个Job，划分的标记是Shuffle。

A 正确
B 错误
答案：B

（判断题）Sparkon Yarn-client适合用于生产环境是因为可以更快的看到APP的输出

A 正确
B 错误
答案：B

填空题

（填空题）SparkStreaming是将实时输入数据流以____为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据。

答案：时间片

（填空题）Flink状态保存主要依靠（）机制，该机制会定时对程序中的状态进行备份。

答案：Checkpoint

（填空题）Yarn做资源调度时，maptask和reduceTask是运行在( )中

答案：container

（填空题）HBase会周期性的把MemStore的数据刷写到磁盘_____文件中。

答案：HFile

HCIA

HCIA

Leave a comment

大数据HCIA 02

2026年1月6日

大数据HCIA 02

单选题

（单选题）在DataArts Studio平台中，以下哪个选项不属于数据权限模块?

A 数据表权限
B 审批中心
C 用户管理和角色管理
D 数据目录权限
答案：B

（单选题）Elasticsearch中的节点比如共20个，应该设置的最少投票数量是多少来避免闹裂问题?

A 10
B 11
C 9
D 12
答案：B

（单选题）以下关于Kafka Partition偏移量的描述不正确的是?

A 唯一标记一条消息
B offset是一个String型字符串
C 每条消息在文件中的位置称为offset(偏移量）
D 消费者通过 (offset、partition、 topic)跟踪记录
答案：B

（单选题）某电信公司计划开展大数据业务，目标业务有客户分群、用户历史账单分析、实时话费分析等业务。若要满足业务需求，从功能和成本考虑，下列哪个选项最合适?

A 部署Storm
B 单独部署Spark
C 部署WapReduce
D 部署MapReduce与Storm
答案：B

（单选题）哪个不属于Hadoop中MapReduce组件的特点?

A 易于编程
B 实时计算
C 良好扩展性
D 高容错性
答案：B

（单选题）YARN服务中，如果要给队列QueueA设置容量为30%，应该配置哪个参数?

A yarn. scheduler.capacity.root.Queuecapacity
B yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
C yarn.scheduler.capacity.root.Queueuser-limit-factor
D yarn.scheduler.capacity.root.Queuestate
答案：A

（单选题）表引擎在clickHouse中的作用十分关键，以下哪个选项不属于表引擎能够决定的因素?

A 支持哪些查询方式
B 数据导入导出的格式
C 能不能使用索引
D 数据复制使用的参数
答案：B

（单选题）以下关于clickHouse的数据库管理的描述，错误的是哪一项?

A clickHouse不可以按照用户粒度设置数据库或者表的操作权限。
B clickHouse可以动态地创建、修改或删除数据库、表和视图，而无须重启服务。
C clickHouse提供集群模式，能够自动管理多个数据库节点
D clickHouse提供了数据备份导出与导入恢复机制。
答案：A

（单选题）当某RegionServer故障后，Haster若要恢复数据必须依赖下列哪个选项?

A Region
B HDFs
C HLog
D RowKey
答案：C

（单选题）HBase元数据Meta Region路由信息保存在哪里?

A ZooKeeper
B HMaster
C Meta表
D Root表
答案：A

（单选题）某HBase服务查询性能降低，经检查发现当前HBase中HFle文件数目过多，此时应当执行下列哪个操作?

A Scaner
B Create
C Clean
D Compaction
答案：D

（单选题）HBase的Region是由哪个服务进程来管理的?

A ZooKeeper
B HRegionServer
C DataNode
D HMaster
答案：B

（单选题）Hive组件能支持多接口，以下哪个接口是不支持的?

A Restful
B ODBC
C Beeline
D JDBC
答案：A

（单选题）以下关于ZooKeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?

A 先写磁盘再写内存
B 同时写入磁盘和内存
C 先写内存再写磁盘
D 仅写入内存
答案：A

（单选题）某网站举行活动，要求计算该网站每分钟的用户访问量，若要实现该需求，下列哪个选项最合适?

A MapReduce
B Spark
C Storm
D Hive
答案：B

（单选题）HBase的某张表的RowKey划分SplitKey为9，E，a，z，请问该表有几个Region?

A 6
B 3
C 4
D 5
答案：D

（单选题）关于HBase的Region Spit分裂流程的描述不正确的是?

A Split为了减少Region中数据大小，从而将一个Region分裂成两个Region。
B Split过程中所有表会暂停服务
C Split过程中并没有真正的将文件分裂，仅仅是创建了引用文件
D Split过程中被分裂的Region会暂停服务
答案：B

（单选题）Hive组件能支持多种API接口，以下哪个接口是不支持的?

A Beeline
B ODBC
C Restful
D JDBC
答案：C

（单选题）HDFS从2.7.3版本开始，Block Size默认是多大?

A 64MB
B 128MB
C 16MB
D 32MB
答案：B

（单选题）以下哪个不属于Hadoop中MapReduce组件的特点?

A 良好扩展性
B 高容错性
C 易于编程
D 实时计算
答案：D

（单选题）MRS支持与公有云安全服务集成，采取多种措施确保主机安全。以下选项中，哪一个选项不属于主机安全的措施?

A 操作系统内核安加固
B 身份鉴别和认证
C 更新操作系统最新补丁
D 操作系统端口管理
答案：B

（单选题）.Producer需要Server接收到数据之后发出的确认接收的信号，当设置ACK信号的值为多少时表示至少要等待Leader已经成功将数据写入本地Log，但不要求等待所有Follower都成功写入?

A acks=0
B acks=2
C acks=1
D D .acks=a11
答案：C

（单选题）以下关于Flume中各个Channel类型描述错误的是哪一项?

A Memory channel中消息存放在内存中，提供高吞吐，但可能丢失数据
B JDBC Channel内置的derby数据库，对event进行了持久化，但不提供高可靠性
C Channel支持事务机制，提供较弱的顺序保证
D File Channe1支持对数据持久化，但需要配置数据目录和checkpoint目录
答案：B

（单选题）在MRS服务中，关于Kafka的Topic，以下描述不正确的有?

A 每个Topic只能被分成一个partition(区)
B 每个Partition在存储层面对应一个1og文件，1og文件中记录了所有的消息数据
C 每条发布到Kafka的消息都有一个类别，这个类别被称为Topic，也可以理解为一个存储消息的队列
D Topic的Partition数量可以在创建时配置
答案：A

（单选题）以下关于Kafka消息传递方式描述不正确的是哪一项?

A 在点对点消息系统中，可能会有多个消费者同时消费数据，因此不能保证数据处理的顺序
B 在点对点消息系统中，当一个消费者消费了队列中的某条数据之后，该条数据则从消息队列中删除
C 分布式消息传递有两种主要的消息传递模式，点对点传递模式、发布-订阅模式
D 在发布-订阅消息系统中，同一条数据可以被多个消费者消费，数据被消费后不会立马删除
答案：A

（单选题）某大数据公司在处理统计实时用户消费数据时，以下能够实现对一分钟内的窗口数据进行分组聚合功能的是哪一项?

A override def map(valve: String): WaterSensor ={ Val datas: Array[SFing] = value. split(","） WaterSensor(getRuntimeContext. getTaskName, datas(1). tolong, datas(2). toInt) }
B override def extractAscendingTimestamp(element: User): Long = element,timestamp）, KeyBy(.userId) Window(TumblingEventTimeWindows.of(Time.seconds(60)))
C DataStream windowStream = windowCount,keyBy(0) .timeWindow(Time.minutes(1), Time.seconds(30)). Sum(1):
D DataStream result = Stream .keyBy(value ->value.f0) .process(new CountWithTimeoutFunction(1))
答案：B

（单选题）在数据流处理过程中，经常使用系统时间 (processing time)作为某个事件的时间，关于processing time描述错误的是哪一项?

A Processing Time结果是不可复现的，一旦流式计算版本升级甚至系统崩溃，计算将会停止
B 实际应用过程中，processing time要落后与event time
C processing time和event time之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的
D Processing Time适用于处理问题复杂、对结果可溯要求较高的场景
答案：D

（单选题）某证券公司每10秒分析最近5秒的股票指数，若使用Spark Streaming实现，窗口时间和滑动时间如何设置?

A 窗口时间10秒滑动时间10秒
B 窗口时间5秒滑动时间10秒
C 窗口时间5秒滑动时间5秒
D 窗口时间10秒滑动时间5秒
答案：B

（单选题）Flink根据数据集类型的不同将核心数据处理接口分为两大类，一类是支持批计算的接口，另外一类是支持流计算的接口，以下关于这两类接口描述正确的算哪一项?

A 仅支持批计算的接口是DataStream API,仅支持流计算的接口是SQL API
B 支持批计算的接口是DataSet API,支持流计算的接口是DataStream API
C 支持批计算的接口是DataStream API,支持流计算的接口是DataSet API
D 仅支持批计算的接口是SQL API,仅支持流计算的接口是DataStream API
答案：B

（单选题）关于RDD,下列说法错误的是?

A RDD默认存储在磁盘
B RDD是一个只读的，可分区的分布式数据集
C RDD是Spark对基础数据的抽象
D RDD具有血统机制(Lineage)
答案：A

（单选题）YARN调度器分配资源的顺序，下面哪一个描述是正确的?

A 本地资源 ->同机架 ->任意机器
B 同机架 ->任意机器 ->本地资源
C 任意机器 ->同机架 ->本地资源
D 任意机器 ->本地资源-> 同机架
答案：A

（单选题）MergeTree是用于高负载任务的最通用和功能最强大的表引擎，以下关于MergeTree的关键特征的描述，错误的是哪一项?

A 支持二级索引
B 支持并发数据访问
C 支持主键排序
D 支持数据迁移
答案：D

（单选题）以下关于clickHouse适用场景的描述，错误的是哪一项?

A 网络/APP流量分析
B 商业智能 (BI)
C 非结构化数据
D 用户行为记录分析
答案：C

多选题

（多选题）企业做大数据处理，对数据库的技术和架构要求具备哪些能力？

A 数据库必须是分布式架构
B 海量数据运维需要保证数据稳定，支持高并发的同时减少服务器负载
C 数据库要求能处理PB级别的数据
D 数据库规划需要考虑结构化数据、半结构化数据和非结构化数据的支持
答案：ABCD

（多选题）ElasticSearch的平衡算法可应用于哪些场景?

A 导入数据
B 导出数据
C 扩容
D 减容
答案：ACD

（多选题）Flink中Watermark机制用来解决乱序问题，Watermark可通过以下哪些方式产生?

A 继承getCurrentWatermark
B 继承assignerWithPunctuatedWatermarks
C 继承assignerTimestamWithWatermark
D 继承assignerWithPeriodicWatermarks
答案：BD

（多选题）下列哪些查询场景使用列存储更合适?

A 条件查询
B 分组查询
C 点查询
D 聚合查询
答案：BD

（多选题）Hive相较于传统数据仓库的优点有哪些?

A 数据存储在HDFS，可靠性高，容错性高
B 依赖硬件较低，可适应普通的机器
C 索引处理效率高效
D 集成一整套成熟的的报表解决方案，可以较为方便的进行数据的分析
答案：AB

（多选题）Hive可以创建托管表和外部表，关于这两种表，以下描述正确的是哪些选项?

A 使用外部表时，执行DROP操作时，元数据和数据会被一起删除
B 使用托管表时，执行DROP操作时，只删除元数据
C 使用托管表时，执行DROP操作时，元数据和数据会被一起删除
D 使用外部表时，执行DROP操作时，只删除元数据
答案：CD

（多选题）ZooKeeper的关键特性包括以下哪些选项?

A 最终一致性
B 可靠性
C 等待无关性
D 原子性
答案：ABCD

（多选题）HDFS中，抽象的块可以带来哪些好处?

A 支持大规模文件存储
B 满足IO密集型应用的性能要求
C 简化系统设计
D 适合数据备份
答案：ACD

（多选题）HDFS支持通过以下哪些访问方式来访问数据?

A HTTP
B JAVA API
C s3
D She11
答案：ABD

（多选题）HBase中以下哪种场景会触发Flush操作?

A HBase定期刷新Memstore，默认周期为1小时
B 当WALs中文件数量达到阈值时
C Region中MemStore的总大小，达到了预设的Flush Size阈值
D MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小
答案：ABCD

（多选题）以下关于Hive的描述，正确的有哪些选项?

A 对数据的ETL过程自动化
B 可直接访问HDFS文件以及HBase。
C 可以查询和管理PB级别的分布式数据
D 支持Tez，Spark等多种计算引擎
答案：ABCD

（多选题）以下属于Hive内置的字符串函数有哪些?

A abs( )
B length()
C substr( )
D trim( )
答案：BCD

（多选题）Hive的主要应用于以下哪些场景?

A 实现数据的流式处理
B 海量数据的离线分析
C 实现数据抽取、数据加载、数据转换
D 大规模的数据挖掘
答案：BCD

（多选题）调用ZooKeeper客户端命令中包含哪些信息?

A 用户名
B 端号
C 服务器名称
D ip地址
答案：BD

（多选题）客户端是用户操作HDFS最常用的方式，以下关于HDFS客户端的描述正确的有哪些?

A HDFS客户端提供了类似shell的命令行方式来访问HDFS中的数据
B 客户端可以支持打开、读取、写入等常见的操作
C HDFS客户端是一个库，包含HDFS文件系统接口，这些接口隐藏了HDFS实现中的大部分复杂性
D 客户端是HDFS的一部分，是部署HDFS的必备组件
答案：ABCD

（多选题）Flume采集海量日志数据时，经常会遇到性能瓶颈，可以通过以下哪些方式提升Flume性能?

A 增加Source数量
B 修改batchSize和capacity
C 优化Flume GC参数
D 增加Flume级联节点
答案：ABCD

（多选题）Flink提供了内置的状态管理，可以把工作时状态存储在Fink内部，而不需要把它存储在外部系统。这样做的好处包含以下哪些选项?

A 降低了计算引擎对外部系统的依赖，使得部署、运维更加简单
B 确保了数据在处理过程中的一致性
C 对性能带来了极大的提升
D 实现了高吞吐、高性能特性，但无法做到低延迟保障
答案：ABC

（多选题）Spark发生Shuffle时会延长任务执行时间，下列哪些选项不能够减少shuffle次数?

A 更换shuffle机制
B 增强集群性能快速执行shuffle
C 多用transformation算子少用action算子
D 避免使用groupBy、reduceByKey等可产生宽依赖的算子
答案：BC

（多选题）Flink的兼容性体现在以下哪些方面?

A 能够从本地获取数据
B 能够与Hadoop原有的Mappers和Reducers混合使用
C 能够使用Hadoop的格式化输入和输出
D YARN能够作为Flink集群的资源调度管理器
答案：ACD

（多选题）下列哪些选项对RDD描述正确?

A RDD是只读的
B RDD进行数据恢复时所有分区同时进行
C RDD依赖血统机制恢复数据
D RDD是只读的所以RDD不支持写操作
答案：ACD

（多选题）以下哪些选项属于数据地图支持的功能?

A 通过血缘分析可以查看每个数据表的来源、去向。
B 通过血缘分析可以查看每个表及字段的加工逻辑
C 可以根据表名直接查看表详情
D 可以通过关键词搜索数据资产
答案：ABCD

（多选题）Kafka中日志的清理方式包含以下哪些项?

A remove
B update
C compact
D delete
答案：CD

（多选题）关于Spark SQL &Hive区别与联系，下列说法正确的是?

A Spark SQL依赖Hive的元数据
B Spark SQL的执行引擎为Spark Core,Hive默认执行引擎为MapReduce
C Spark SQL不可以使用Hive的自定义函数
D Spark SQL兼容绝大部分Hive的语法和函数
答案：BD

（多选题）Flink的时间窗口根据实现原理的不同可分为以下哪些窗口?

A 会话窗口(Session Window)
B 计数窗口(CountWindow)
C 滑动窗口(Sliding Window)
D 滚动窗口(Tumbling Window)
答案：ACD

（多选题）某电商公司同时运行MapReduce离线分析任务和Spark实时分析任务，若使用Yarn的Capacity调度器，资源分配如何进行?

A 离线分析任务和实时分析任务安排在不同队列且优先满足实时分析任务的资源需求
B 离线分析任务和实时分析任务安排在同一队列
C 离线分析任务和实时分析任务安排在同一队列且优先满足实时分析任务的资源需求
D 离线分析任务和实时分析任务安排在不同队列
答案：AD

（多选题）以下关于clickHouse增强特性的描述，正确的是哪些项?

A 默认采用两副本方式、自动生成集群分片拓扑
B 实现滚动升级/滚动重启
C 平滑的弹性扩容能力
D 提供了基于ELB的HA部署架构
答案：ABCD

判断题

（判断题）Kafka中，Leader主要负责监控Follower的运行状态，Follower主要负责数据的读写

A 正确
B 错误
答案：B

（判断题）Yarn-client和Yarn-cluster主要区别是Application Master进程的区别

A 正确
B 错误
答案：A

（判断题）Spark任务的Container可以运行多个task。

A 正确
B 错误
答案：A

（判断题）在YARN的任务调度中，一旦Application Master 申请到资源后，便与对应的Resource Manager 通信，要求它启动任务

A 正确
B 错误
答案：B

（判断题）MySQL引警用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在clickHouse与MySqL之间进行数据交换。

A 正确
B 错误
答案：A

（判断题）ElasticSearch 的倒排索引所采用的排序方式，是通过Value找Key。在全文搜索中Value就是要搜索的关键词，通过Vaue找到对应的文档。

A 正确
B 错误
答案：A

（判断题）Kafka的Producer和Customer数量必须相同

A 正确
B 错误
答案：B

（判断题）Kafka中分布式消息传递基于可靠的消息队列，支持客户端应用和消息系统之间异步传递消息

A 正确
B 错误
答案：A

（判断题）Spark和Hadoop一样不适用于选代计算。

A 正确
B 错误
答案：B

（判断题）.MapReduce某一任务失败时可通过重试机制重新计算该任务。

A 正确
B 错误
答案：A

（判断题）ClickHouse是俄罗斯yandex公司开发的OLTP数据库管理系统

A 正确
B 错误
答案：B

（判断题）HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统

A 正确
B 错误
答案：A

（判断题）一个Spark应用程序运行时，如果某个task运行失败，则整个app运行失败

A 正确
B 错误
答案：B

（判断题）MRS会保存用户设置的登录Master节点的初始密码。为避免被恶意攻击，建议设置复杂度高的密码

A 正确
B 错误
答案：A

（判断题）StructuredStreaming接收结构化数据流生成无边界表，随着时间积累该表越来越大最终会导致数据过大无法计算。

A 正确
B 错误
答案：B

（判断题）Spark Streaming计算基于DStream,将流式计算分解成一系列短小的批处理作业。

A 正确
B 错误
答案：A

（判断题）容量调度器在进行资源分配时，现有同级的2个列队Q1和Q2，它们的容量均为30，其中Q1已使用8，Q2已使用14，则会优先将资源分配给Q1。

A 正确
B 错误
答案：A

填空题

（填空题）Kafka集群包含一个或多个服务实例，这个服务实例被称为______

答案：Broker

（填空题）Flume在传输数据过程中，可以对数据进行简单过滤，主要通过设置_____在source和channel之间(写Chamne1之前)对不关心的数据进行过滤。

答案：Interceptor

（填空题）RDD有宽窄依赖，当宽依赖发生时产生______降低集群性能

答案：Shuffle

（填空题）Yarn做资源调度时，任务运行所需的资源是由（）提供的

答案：NodeManager

（填空题）ClickHouse支持CLI客户端和（）(请填写大写的英文缩写词)客户端访问。

答案：JDBC

（填空题）用于记录Kafka中消息读取位置的是____________

答案：offset

（填空题）ClickHouse提供（）(请填写大写的英文缩写词) 、HTTP两种访问协议。

答案：TCP

HCIA

HCIA

Leave a comment

大数据HCIA 01

2026年1月6日

大数据HCIA 01

单选题

（单选题）5:Hive通过JDBC连接返回查询结果

A 21345
B 24315
C 24135
D 21435
答案：B

（单选题）HBase表设计中，列族和RowKey是表设计的重要内容。下列哪个选项不适合做RowKey?

A 用户ID
B 用户名
C 身份证号
D 手机号
答案：B

（单选题）HBase中数据存储的文件格式是什么?

A HLog
B Sequencelile
C TextFile
D HFile
答案：D

（单选题）关于HDFS数据完整性保障，以下哪个机制是错误的?

A 快照机制实现了文件系统常见的快照机制，保证数据误操作时，能及时恢复
B 采用日志机制操作元数据，同时元数据存放在主备NameNode上
C 节点性能较高的DataNode会存放更多的数据
D DataNode向NameNode周期上报失败任务，NameNode发起副本重建动作以恢复丢失副本
答案：C

（单选题）HBase要实现数十亿行数百万列的存储规模，需要以下哪个选项支持?

A Redis
B ElasticSearch
C Kafka
D HDFS
答案：D

（单选题）Hadoop中，如果将yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent设置为50，下面说法错误的是?

A 一个用户提交任务，可以使用QueueA的100%的资源。
B QueueA中的每个用户最多只能获得50%的资源。
C QueueA中必须保障每个用户至少得到50%的资源。
D 如果QueueA中已经有2个用户的任务运行，这时第3个用户提交的任务需要等待释放资源。
答案：B

（单选题）在ClickHouse中创建数据表时，指定以下哪一个表引擎会导致重新启动服务器时表中的数据消失，表变为空?

A MySQL
B Kafka
C TinyLog
D Memory
答案：D

（单选题）在Hive数据存储模型中，分区和桶的关系描述错误的是哪一项?

A 分区下可再有分区或者桶
B 每个桶是一个目录
C 建表时指定桶个数，桶内可排序。
D 分区数量不固定
答案：B

（单选题）Flink程序由Source、Transformatin和Sink三部分组成，以下关于这三部分描述错误的是哪一项?

A Sink负责最终数据的输出，支持HDFS、Kafka和文本输出等
B 在各部分之间流转的数据会被封装成一个个Event
C Source主要负责数据的读取，支持HDFS、Kafka、HBase和文本等
D Transformatin主要负责对数据的转换操作
答案：B

（单选题）某公司使用用户ID做HBase的Rowkey，同时在列中还存在phone列，该列存储了用户的手机号码。该公司要求能够通过phone快速查询到用户ID，下列哪个方法比较合适?

A Get与valueFiller同时使用
B 创建二级索引
C Scan与valueFillter同时使用
D 使用Fillter
答案：B

（单选题）YARN中设置队列QueueA的最大使用资源量，需要配置哪个参数？

A yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
B yarn.scheduler.capacity.root.Queuemaximum-capacity
C yarn.scheduler.capacity.root.Queueuser-1imit-factor
D yarn.scheduler.capacity.root.Queuestate
答案：B

（单选题）某公司使用HBase存储业务数据，由于数据规模较大，所以数据存储在HBase后会导致频繁的Region分裂，为了避免这种情况，下列哪个方法比较适用？

A 增加Region大小
B 增大MemStore大小
C 对该表预分区
D 提升RegionServer性能
答案：C

（单选题）HBase命令中下列哪个选项性能最差？

A get
B put
C scan
D list
答案：C

（单选题）Kafka集群在运行期间，直接依赖于下面哪个组件？

A ZooKeeper
B HDFS
C Flume
D HBase
答案：A

（单选题）以下关于ZooKeeper的关键特性，描述错误的是哪一项？

A 原子性：更新只能成功或者失败，没有中间状态
B 可靠性：一条消息被一个server接收即完成，其他server不需要再重复接收该信息
C 等待无关性：慢的或者失效的client不会干预快速的client的请求，使得每个client都能有效的等待
D 最终一致性：无论哪个server，对外展示的均是同一个视图
答案：B

（单选题）以下关于ZooKeeper关键特性中的原子性说法正确的是?

A 一条消息被一个server接收，将极所有server接收
B 更新只能全部完成或失败，不会部分完成
C 集群中无论哪台服务器，对外展示的均是同一视图
D 客户端发送的更新会按照它们被发送的顺序进行应用
答案：B

（单选题）可以通过以下哪个命令创建节点数据?

A set /node data
B get /node
C create /node
D 1s /node
答案：C

（单选题）Spark自带的资源管理框架是?

A Docker
B YARN
C Mesos
D Standalone
答案：D

（单选题）以下选项中，哪一项用于查看ClickHouse组件命令帮助？

A clickHouse -cat
B clickHouse -h
C clickHouse -m
D clickHouse -help
答案：B

（单选题）以下关于ClickHouse的数据分片和数据副本的描述，错误的是哪一项？

A 分片之间的数据是完全相同的。
B ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制。
C 数据副本的主要目的是防止数据丢失，增加数据存储的冗余。
D 数据分片的主要目的是实现数据的水平切分。
答案：A

（单选题）Hadoop平台中，要查看YARN服务中一个application的信息，通常需要使用什么命令？

A container
B application
C application -attempt
D jar
答案：B

（单选题）对于延迟事件出现时窗口已经关闭并产出了计算结果，以下处理方法不合理的是哪一项？

A 将延迟事件视为错误消息并丢弃
B 延迟事件一定不能忽略计算
C 重新激活已经关闭的窗并重新计算以修正结果
D 将延迟事件收集起来另外处理
答案：B

（单选题）某公司使用Spark做大数据分析，某次分析任务中某RDD会被重复利用，导致重复计算多次。若要避免重复计算且能够重复利用该RDD，以下哪个选项更合适？

A Spark计算很快，无需优化
B 增大任务资源，快速结束该任务
C 写出该RDD，需要时再重新读取
D RDD执行persist 操作
答案：D

（单选题）以下关于Kafka特点描述不正确的是哪一项?

A 支持在线水平扩展
B 支持多级级联
C 高吞吐率
D 支持消息分区
答案：B

（单选题）ElasticSearch的一个索引库默认有几个分片？

A 4
B 5
C 6
D 3
答案：B

（单选题）以下关于MRS使用限制的描述，错误的是哪一项?

A 集群创建完成后，请勿随意删除或更改已使用的安全组。
B MRS集群使用的安全组请勿随意放开权限，避免被恶意访问
C 创建MRS集群时，不支持自动创建安全组，需要手动创建索全组
D IRS集群必须创建在VPC子网内。
答案：C

（单选题）以下描述中，哪个不是Hive的优点?

A 类似SQL语法，内置大量函数
B 依赖于高性能的商业服务器
C 支持自定义存储格式和自定义函数
D HiveServer支持集群模式
答案：B

（单选题）Hive在处理一些复杂的统计或者排序等复杂任务的时候，会调用以下哪个组件?

A Hadoop
B HBase
C MapReduce
D HDFS
答案：C

（单选题）以下关于HBase二级索引的描述哪一项是正确的?

A 二级索引把要查找的列与rowkey关联成一个索引
B 此时列成新的rowkey，原rowkey成为value
C 二级索引查询了2次
D 以上全都正确
答案：D

（单选题）HBase的主HMaster是如何选举的?

A HMaster为双主模式，不需要进行裁决
B 随机选取
C 由RegionServer进行裁决
D 通过ZooKeeper进行裁决
答案：D

（单选题）RDD有Transfrmatin和Actin算子，下列属于Action算子的是?

A saveAsTextFile
B filter
C map
D reduceByKey
答案：A

（单选题）关于DataSet,下列说法不正确的是?

A DataSet不需要反序列化就可执行大部分操作
B DataSet执行sort、filter、shuffle等操作需要进行反序列化
C DataSet是一个由特定域的对象组成的强类型集合
D DataSet与RDD高度类似，性能比RDD好
答案：B

（单选题）在Kafka HA中，当Partition对应的Leader宕机时，需要从Follower中选举出新Leader，具体由以下哪个角色执行?

A Controller
B Broker
C Leader
D Follower
答案：A

（单选题）下面哪一个是ElasticSearch的节点

A Cluster
B EsMaster
C Index
D EsNode
答案：D

（单选题）以下关于KrbServer及LdapServer开源增强特性的描述，错误的是哪一项？

A 集群内服务认证
B 应用开发认证
C 跨系统互信特性
D 账号身份认证
答案：D

（单选题）ZooKeeper客户端获取节点数据的命令，以下哪个是正确的

A set /node data
B get /node
C show /node
D ls /node
答案：B

（单选题）当ZooKeeper集群的节点数为5节点时，请问集群的容灾能力和多少节点是等价的

A 3
B 4
C 5
D 6
答案：D

（单选题）以下描述哪一项不是传统数据处理的瓶颈?

A 流数据的实时写入
B 数据批量处理性能不足
C 海量数据的高存储成本
D 缺乏流式数据处理能力
答案：A

多选题

（多选题）HBase中包含的一些典型的Filter有哪些?

A SingleColumValueFilter
B RowFilter
C KeyOnlyFilter
D FilterList
答案：ABCD

（多选题）下列选项对 Compation 描述正确的是哪一项?

A Compation通过消除过期数据文件减少HFile文件数
B Compation通过合并文件减少HFile文件数
C Minor触发频率相对Major较高
D 有Minor和Major两种类型
答案：ABCD

（多选题）ZKFC进程部署在HDFS中的以下哪些节点上?

A Active NameNode
B DataNode
C Standby NameNode
D 略
答案：AC

（多选题）以下哪些属于企业级大数据的应用场景?

A 供应链管理
B 内部运营管理
C 客户分析
D 营销分析
答案：ABCD

（多选题）关于华为云MRS海量数据离线分析场景描述正确的是哪几项?

A 利用Hive实现TB/PB级的数据分析
B 利用Flink实现数据采集
C 利用OBS实现低成本存储
D 通过可视化导入导出工具Loader，将数据导出到DWS，完成BI分析
答案：ACD

（多选题）以下关于Hive架构中的组件功能，描述正确的是哪些选项?

A A.Executor负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务
B B.ThriftServer提供thrift接，作为JDBC的服务端，并将Hive和其他应用程序集成起来Compiler
C C.按照任务的依赖关系分别执行Map/Reduce任务
D D.Optimizer是优化器，分为逻辑优化器和物理优化器，分别对HiveQL生成的执行计划和MapReduce任务进行优化
答案：BCD

（多选题）MergeTree用于高负载任务的最通用和功能最强大的表引擎，以下关于MergeTree的关键特征的描述，错误的是哪些项?

A 基于分区键的数据分区分块存储
B 不支持数据复制
C 不支持数据抽样
D 数据索引排序
答案：BC

（多选题）Spark有哪些特点?

A A.轻
B B.灵
C C.快
D D.巧
答案：ABCD

（多选题）下列哪些选项对HBase,读写数据的过程描述正确?

A 客户端读取数据不需要HMaster参与
B 客户端可以维护已访问过的Region位置信息加快查询
C 客户端读取数据需要HMaster参与
D 客户端不可以维护已访问过的Region位置信息加快查询
答案：AB

（多选题）下列哪些选项是action算子?

A mapPartition
B reduce
C reduceByKey
D Dcollect
答案：BD

（多选题）下列关于Hive基本操作命令的解释正确的是哪些项？

A drop table if exists T1；／／删除表T1
B alter table T1 rename t T2；／／将表T1重命名为T2
C create table if not exists T1 like T2；／／拷贝T2表，包括表里的数据，并命名为T1
D remove table T1 where id＝1；／／删除表中符合条件“id=1”的数据。
答案：AB

（多选题）ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供的功能有哪些？

A 帮助系统避免单点故障，建立可靠的应用程序
B 实现元数据持久化
C 提供分布式协作服务和维护配置信息
D 为集群提供高并发能力
答案：ACD

（多选题）关于HDFS的NameNode的功能，以下描述错误的是哪些项?

A 维护了Block ID 到DataNode本地文件的映射关系
B 存储文件内容
C 保存文件块和DataNode之间的映射关系
D 用于存储元数据
答案：AB

（多选题）执行HBase读数据业务，需要读取哪几部分数据?

A HMaster
B MemStore
C HFile
D HLog
答案：BC

（多选题）以下哪些选项属于ClickHouse的表引擎？

A CollapsingMergeTree
B GraphiteMergeTree
C AggregatingMergeTree
D VersionedCollapsingMergeTree
答案：ABCD

（多选题）某电商平台每天产生大量的交易订单数据，现在需要对这些数据中的交易金额做统计，可能会用到如下哪些组件？

A MapReduce
B MySQL
C Kafka
D Flume
答案：ABCD

（多选题）Kafka中Partition对应的Leader宕机时，需要从Follower中选举出新Leader。当所有Replica都不工作时，对数据及时间要求不高的情况下以下哪些方案可行?

A 选择第一个活过来的Replica (不一定是 ISR 成员) 作为 Leader
B 重启Kafka集群
C 等待ISR中的任一个Replica活过来，并选它作为Leader
D 在配置中增加Replica副本数量
答案：ABC

（多选题）数据操纵语言DML是包括以下哪些字句?

A 查找:SELECT
B 插入: INSERT
C 更新:UPDATE
D 删除: DELETE
答案：ABCD

（多选题）以下关于HBase中HMaster的功能描述哪些是正确的?

A Region负载均衡，Region分裂以及分裂后的Region分配
B 负责建表/修改表/删除表
C RegionServer失效后的Region迁移
D 负责RegionServer的负载均衡
答案：ABCD

（多选题）Spark框架包括哪些模块?

A Spark SQL
B Spark MLlib
C Spark Streaming
D Spark GraphX
答案：ABCD

（多选题）以下关于Flink容错机制描述错误的有哪些?

A Savepoint机制保证了实时程序运行时，即使突然遇到异常也能够进行自我恢复
B Checkpoint机制保证了实时程序运行时，即使突然遇到异常也能够进行自我恢复
C Checkpoint机制保证了程序在进行升级或者修改并发度等情况后，还能从保存的状态位继续启动恢复
D Savepoint机制保证了程序在进行升级或者修改并发度等情况后，还能从保存的状态位继续启动恢复
答案：AC

（多选题）Structured Streaming在OutPut阶段可以定义不同的数据写入方式，包括下列哪些方式?

A Complete Mode
B Append Mode
C General Mode
D Update Mode
答案：ABD

（多选题）Spark与MapReduce进行比较，下列说法正确的是哪几项?

A Spark任务的中间结果只能存储在内存
B Spark任务中shuffle不是必须的过程
C Spark任务中shuffle是必须的过程
D Spark可以缓存中间结果在内存降低磁盘IO
答案：BD

（多选题）Kafka分布式消息传递基于可靠的消息队列，包含以下哪两种主要的消息传递模式?

A 分发传递模式
B 轮询传递模式
C 点对点传递模式
D 发布订阅模式
答案：CD

（多选题）ElasticSearch支持以下哪些访问接口?

A A.PUT
B B.POST
C C.DELETE
D D.GET
答案：ABCD

（多选题）以下关于传统数据入湖面临的挑战的描述，正确的是哪些项？

A 开发难
B 成本高
C 时效差
D 资源利用率低
答案：ABCD

（多选题）MRS在基于Apache Hadoop开源软件的基础上，在主要业务部件的可靠性、性能调优等方面进行了优化和提升。以下关于MRS平台的描述，正确的是哪些项？

A MRS支持自动处理网络故障，自动恢复受影响的业务。
B 在系统进行扩容、打补丁等重大操作前，需要通过手动备份集群管理系统的数据，以便在系统故障时，恢复集群管理系统功能。
C MRS对集群管理系统Manager上的数据提供自动备份功能，根据制定的备份策略可自动备份集群上的数据。
D MRS支持将Manager、HBase上的数据自动备份到第三方服务器。
答案：ABC

（多选题）关于HDFS命名空间管理，以下选项描述正确的是哪几项?

A 对文件系统命名空间或其属性的任何更改由NameNode和DataNode共同记录
B NameNode维护文件系统命名空间
C HDFS的命名空间包含目录、文件和块
D 用户可以像使用普通文件系统一样，创建、删除、转移目录和文件
答案：BCD

（多选题）数据节点是HDFS的工作节点，以下描述哪些是其功能?

A 根据客户端或者是名称节点的调度来进行数据的存储和检索
B 向名称节点定期发送自己所存储的块的列表。
C 负责数据的存储和读取
D 记录了所有针对文件的创建、删除、重命名等操作
答案：ABC

（多选题）下图展示了HDFS的标签存储策略，观察下图，HBase的数据会被存储到哪些数据节点上?

A DataNode B
B DataNode E
C DataNode C
D DataNode A
答案：AD

（多选题）以下哪些选项属于数据治理模块域?

A 数据集成
B 数据服务
C 数据开发
D 主数据管理
答案：ABCD

（多选题）以下哪些选项属于数据治理的价值?

A 提升业务处理效率
B 解决数据安全问题
C 降低业务运营成本
D 代替管理决策
答案：ABC

判断题

（判断题）ZooKeeper支持对多个ClickHouseServer进行负载均衡，提高应用接入的高可靠性

A 正确
B 错误
答案：A

（判断题）Tez是一个支持有向无环图的分布式计算框架，Hive使用Tez引擎进行数据分析时，会将用户提交的HQL语句解析成相应的Tez任务并提交Tez行

A 正确
B 错误
答案：A

（判断题）Distributed表引擎本身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据到集群中的各个节点，分布式表需要和其他本地数据表一起协同工作

A 正确
B 错误
答案：A

（判断题）生产环境中任何一个MapRedce任务Shuffle都是不可避免的

A 正确
B 错误
答案：B

（判断题）分布式表的表结构尽量和本地表的结构一致。如果不一致，在在建表时不会报错，但在查询或者插入时可能会抛出异常

A 正确
B 错误
答案：A

（判断题）Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算，还能提供批量数据处理

A 正确
B 错误
答案：A

（判断题）ClickHuse完全使用SQL作为查询语言，提供了标准协议的SQL查询接口

A 正确
B 错误
答案：A

（判断题）Flume支持将多个Flume级联起来，同时级联节点内部支持数据复制

A 正确
B 错误
答案：A

（判断题）Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规漠数据的机制

A 正确
B 错误
答案：A

（判断题）HBase中penscanner的过程，会创建两种不同的Scanner来读取H-File和 MemStore的数据。HFile对应的Scanner为StoreFileScanner;MemStore对应的Scanner为MemStoreScanner。

A 正确
B 错误
答案：A

（判断题）ApplicationMaster 采用轮询的方式通过RPC 协议向ResourceManager 申请和领取资源

A 正确
B 错误
答案：A

（判断题）Hadoop系统中，如果HDFS文件系统的备份因子是3,，那么MapReduce每次运行的task都要从3个有副本的机器上传输需要处理的文件段.

A 正确
B 错误
答案：B

（判断题）Resurceanager采用高可用方案，当Active ResourceManager发现故障时，只能通过内置的ZooKeeper来启动Standby的ResourceManager,将其状态切换为Active。

A 正确
B 错误
答案：B

（判断题）Spark的中间数据放在内存中，对于迭代运算、批处理计算的效率更高，延迟更高

A 正确
B 错误
答案：B

（判断题）在点对点消息系统中，可由一个或多个消费者消费队列中的数据，但是一条消息只能被消费一次。

A 正确
B 错误
答案：A

（判断题）Flume是一种分布式，高可靠且高可用的服务，用于有效地收集、聚合和移动大量日志数据.

A 正确
B 错误
答案：A

（判断题）数据质量监控DQC(Data Quality ntr1)模块是对数据库里的数据质量进行质量管理的工具，可以从完整性、有效性、及时性、一致性准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。

A 正确
B 错误
答案：A

（判断题）在DataArts Studio平台中，支持自定务元模型，批量导入业务元数据，关联业务和技术元数据、全链路的血缘管理和应用。

A 正确
B 错误
答案：A

（判断题）大数据体量的不断增加，对数据存储理安全性要求越来越高，对数据的多副本与容灾机制也提出更高的要求。

A 正确
B 错误
答案：A

（判断题）Apache Ranger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行粗粒度的数据访问控制。

A 正确
B 错误
答案：B

填空题

（填空题）Hive架构中，（）组件负责对表，列和Partition等的元数据进行读写及更新操作

答案：Metastore

（填空题）HBase通过（）快速判断用户数据不存在

答案：BloomFilter

（填空题）Hbase开启了预写日志之后，在写入数据时率先写入____再写入MemStore

答案：HLog

（填空题）某公司使用Yarn的capacity调度器管理集群资源，现设置某一队列用户最低资源保障百分比为20%，该队列最多可允许____用户提交任务

答案：5

（填空题）Spark架构中，( )是核心模块

答案：SparkCore

HCIA

HCIA

Leave a comment