Skip to content
2026年1月6日
2026年1月6日
2026年1月6日
大数据HCIA 02
单选题
(单选题)在DataArts Studio平台中,以下哪个选项不属于数据权限模块?
A 数据表权限
B 审批中心
C 用户管理和角色管理
D 数据目录权限
答案:B
(单选题)Elasticsearch中的节点比如共20个,应该设置的最少投票数量是多少来避免闹裂问题?
(单选题)以下关于Kafka Partition偏移量的描述不正确的是?
A 唯一标记一条消息
B offset是一个String型字符串
C 每条消息在文件中的位置称为offset(偏移量)
D 消费者通过 (offset、partition、 topic)跟踪记录
答案:B
(单选题)某电信公司计划开展大数据业务,目标业务有客户分群、用户历史账单分析、实时话费分析等业务。若要满足业务需求,从功能和成本考虑,下列哪个选项最合适?
A 部署Storm
B 单独部署Spark
C 部署WapReduce
D 部署MapReduce与Storm
答案:B
(单选题)哪个不属于Hadoop中MapReduce组件的特点?
A 易于编程
B 实时计算
C 良好扩展性
D 高容错性
答案:B
(单选题)YARN服务中,如果要给队列QueueA设置容量为30%,应该配置哪个参数?
A yarn. scheduler.capacity.root.Queuecapacity
B yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
C yarn.scheduler.capacity.root.Queueuser-limit-factor
D yarn.scheduler.capacity.root.Queuestate
答案:A
(单选题)表引擎在clickHouse中的作用十分关键,以下哪个选项不属于表引擎能够决定的因素?
A 支持哪些查询方式
B 数据导入导出的格式
C 能不能使用索引
D 数据复制使用的参数
答案:B
(单选题)以下关于clickHouse的数据库管理的描述,错误的是哪一项?
A clickHouse不可以按照用户粒度设置数据库或者表的操作权限。
B clickHouse可以动态地创建、修改或删除数据库、表和视图,而无须重启服务。
C clickHouse提供集群模式,能够自动管理多个数据库节点
D clickHouse提供了数据备份导出与导入恢复机制。
答案:A
(单选题)当某RegionServer故障后,Haster若要恢复数据必须依赖下列哪个选项?
A Region
B HDFs
C HLog
D RowKey
答案:C
(单选题)HBase元数据Meta Region路由信息保存在哪里?
A ZooKeeper
B HMaster
C Meta表
D Root表
答案:A
(单选题)某HBase服务查询性能降低,经检查发现当前HBase中HFle文件数目过多,此时应当执行下列哪个操作?
A Scaner
B Create
C Clean
D Compaction
答案:D
(单选题)HBase的Region是由哪个服务进程来管理的?
A ZooKeeper
B HRegionServer
C DataNode
D HMaster
答案:B
(单选题)Hive组件能支持多接口,以下哪个接口是不支持的?
A Restful
B ODBC
C Beeline
D JDBC
答案:A
(单选题)以下关于ZooKeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?
A 先写磁盘再写内存
B 同时写入磁盘和内存
C 先写内存再写磁盘
D 仅写入内存
答案:A
(单选题)某网站举行活动,要求计算该网站每分钟的用户访问量,若要实现该需求,下列哪个选项最合适?
A MapReduce
B Spark
C Storm
D Hive
答案:B
(单选题)HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?
(单选题)关于HBase的Region Spit分裂流程的描述不正确的是?
A Split为了减少Region中数据大小,从而将一个Region分裂成两个Region。
B Split过程中所有表会暂停服务
C Split过程中并没有真正的将文件分裂,仅仅是创建了引用文件
D Split过程中被分裂的Region会暂停服务
答案:B
(单选题)Hive组件能支持多种API接口,以下哪个接口是不支持的?
A Beeline
B ODBC
C Restful
D JDBC
答案:C
(单选题)HDFS从2.7.3版本开始,Block Size默认是多大?
A 64MB
B 128MB
C 16MB
D 32MB
答案:B
(单选题)以下哪个不属于Hadoop中MapReduce组件的特点?
A 良好扩展性
B 高容错性
C 易于编程
D 实时计算
答案:D
(单选题)MRS支持与公有云安全服务集成,采取多种措施确保主机安全。以下选项中,哪一个选项不属于主机安全的措施?
A 操作系统内核安加固
B 身份鉴别和认证
C 更新操作系统最新补丁
D 操作系统端口管理
答案:B
(单选题).Producer需要Server接收到数据之后发出的确认接收的信号,当设置ACK信号的值为多少时表示至少要等待Leader已经成功将数据写入本地Log,但不要求等待所有Follower都成功写入?
A acks=0
B acks=2
C acks=1
D D .acks=a11
答案:C
(单选题)以下关于Flume中各个Channel类型描述错误的是哪一项?
A Memory channel中消息存放在内存中,提供高吞吐,但可能丢失数据
B JDBC Channel内置的derby数据库,对event进行了持久化,但不提供高可靠性
C Channel支持事务机制,提供较弱的顺序保证
D File Channe1支持对数据持久化,但需要配置数据目录和checkpoint目录
答案:B
(单选题)在MRS服务中,关于Kafka的Topic,以下描述不正确的有?
A 每个Topic只能被分成一个partition(区)
B 每个Partition在存储层面对应一个1og文件,1og文件中记录了所有的消息数据
C 每条发布到Kafka的消息都有一个类别,这个类别被称为Topic,也可以理解为一个存储消息的队列
D Topic的Partition数量可以在创建时配置
答案:A
(单选题)以下关于Kafka消息传递方式描述不正确的是哪一项?
A 在点对点消息系统中,可能会有多个消费者同时消费数据,因此不能保证数据处理的顺序
B 在点对点消息系统中,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除
C 分布式消息传递有两种主要的消息传递模式,点对点传递模式、发布-订阅模式
D 在发布-订阅消息系统中,同一条数据可以被多个消费者消费,数据被消费后不会立马删除
答案:A
(单选题)某大数据公司在处理统计实时用户消费数据时,以下能够实现对一分钟内的窗口数据进行分组聚合功能的是哪一项?
A override def map(valve: String): WaterSensor ={ Val datas: Array[SFing] = value. split(",") WaterSensor(getRuntimeContext. getTaskName, datas(1). tolong, datas(2). toInt) }
B override def extractAscendingTimestamp(element: User): Long = element,timestamp), KeyBy(.userId) Window(TumblingEventTimeWindows.of(Time.seconds(60)))
C DataStream windowStream = windowCount,keyBy(0) .timeWindow(Time.minutes(1), Time.seconds(30)). Sum(1):
D DataStream result = Stream .keyBy(value ->value.f0) .process(new CountWithTimeoutFunction(1))
答案:B
(单选题)在数据流处理过程中,经常使用系统时间 (processing time)作为某个事件的时间,关于processing time描述错误的是哪一项?
A Processing Time结果是不可复现的,一旦流式计算版本升级甚至系统崩溃,计算将会停止
B 实际应用过程中,processing time要落后与event time
C processing time和event time之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的
D Processing Time适用于处理问题复杂、对结果可溯要求较高的场景
答案:D
(单选题)某证券公司每10秒分析最近5秒的股票指数,若使用Spark Streaming实现,窗口时间和滑动时间如何设置?
A 窗口时间10秒滑动时间10秒
B 窗口时间5秒滑动时间10秒
C 窗口时间5秒滑动时间5秒
D 窗口时间10秒滑动时间5秒
答案:B
(单选题)Flink根据数据集类型的不同将核心数据处理接口分为两大类,一类是支持批计算的接口,另外一类是支持流计算的接口,以下关于这两类接口描述正确的算哪一项?
A 仅支持批计算的接口是DataStream API,仅支持流计算的接口是SQL API
B 支持批计算的接口是DataSet API,支持流计算的接口是DataStream API
C 支持批计算的接口是DataStream API,支持流计算的接口是DataSet API
D 仅支持批计算的接口是SQL API,仅支持流计算的接口是DataStream API
答案:B
(单选题)关于RDD,下列说法错误的是?
A RDD默认存储在磁盘
B RDD是一个只读的,可分区的分布式数据集
C RDD是Spark对基础数据的抽象
D RDD具有血统机制(Lineage)
答案:A
(单选题)YARN调度器分配资源的顺序,下面哪一个描述是正确的?
A 本地资源 ->同机架 ->任意机器
B 同机架 ->任意机器 ->本地资源
C 任意机器 ->同机架 ->本地资源
D 任意机器 ->本地资源-> 同机架
答案:A
(单选题)MergeTree是用于高负载任务的最通用和功能最强大的表引擎,以下关于MergeTree的关键特征的描述,错误的是哪一项?
A 支持二级索引
B 支持并发数据访问
C 支持主键排序
D 支持数据迁移
答案:D
(单选题)以下关于clickHouse适用场景的描述,错误的是哪一项?
A 网络/APP流量分析
B 商业智能 (BI)
C 非结构化数据
D 用户行为记录分析
答案:C
多选题
(多选题)企业做大数据处理,对数据库的技术和架构要求具备哪些能力?
A 数据库必须是分布式架构
B 海量数据运维需要保证数据稳定,支持高并发的同时减少服务器负载
C 数据库要求能处理PB级别的数据
D 数据库规划需要考虑结构化数据、半结构化数据和非结构化数据的支持
答案:ABCD
(多选题)ElasticSearch的平衡算法可应用于哪些场景?
A 导入数据
B 导出数据
C 扩容
D 减容
答案:ACD
(多选题)Flink中Watermark机制用来解决乱序问题,Watermark可通过以下哪些方式产生?
A 继承getCurrentWatermark
B 继承assignerWithPunctuatedWatermarks
C 继承assignerTimestamWithWatermark
D 继承assignerWithPeriodicWatermarks
答案:BD
(多选题)下列哪些查询场景使用列存储更合适?
A 条件查询
B 分组查询
C 点查询
D 聚合查询
答案:BD
(多选题)Hive相较于传统数据仓库的优点有哪些?
A 数据存储在HDFS,可靠性高,容错性高
B 依赖硬件较低,可适应普通的机器
C 索引处理效率高效
D 集成一整套成熟的的报表解决方案,可以较为方便的进行数据的分析
答案:AB
(多选题)Hive可以创建托管表和外部表,关于这两种表,以下描述正确的是哪些选项?
A 使用外部表时,执行DROP操作时,元数据和数据会被一起删除
B 使用托管表时,执行DROP操作时,只删除元数据
C 使用托管表时,执行DROP操作时,元数据和数据会被一起删除
D 使用外部表时,执行DROP操作时,只删除元数据
答案:CD
(多选题)ZooKeeper的关键特性包括以下哪些选项?
A 最终一致性
B 可靠性
C 等待无关性
D 原子性
答案:ABCD
(多选题)HDFS中,抽象的块可以带来哪些好处?
A 支持大规模文件存储
B 满足IO密集型应用的性能要求
C 简化系统设计
D 适合数据备份
答案:ACD
(多选题)HDFS支持通过以下哪些访问方式来访问数据?
A HTTP
B JAVA API
C s3
D She11
答案:ABD
(多选题)HBase中以下哪种场景会触发Flush操作?
A HBase定期刷新Memstore,默认周期为1小时
B 当WALs中文件数量达到阈值时
C Region中MemStore的总大小,达到了预设的Flush Size阈值
D MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小
答案:ABCD
(多选题)以下关于Hive的描述,正确的有哪些选项?
A 对数据的ETL过程自动化
B 可直接访问HDFS文件以及HBase。
C 可以查询和管理PB级别的分布式数据
D 支持Tez,Spark等多种计算引擎
答案:ABCD
(多选题)以下属于Hive内置的字符串函数有哪些?
A abs( )
B length()
C substr( )
D trim( )
答案:BCD
(多选题)Hive的主要应用于以下哪些场景?
A 实现数据的流式处理
B 海量数据的离线分析
C 实现数据抽取、数据加载、数据转换
D 大规模的数据挖掘
答案:BCD
(多选题)调用ZooKeeper客户端命令中包含哪些信息?
A 用户名
B 端号
C 服务器名称
D ip地址
答案:BD
(多选题)客户端是用户操作HDFS最常用的方式,以下关于HDFS客户端的描述正确的有哪些?
A HDFS客户端提供了类似shell的命令行方式来访问HDFS中的数据
B 客户端可以支持打开、读取、写入等常见的操作
C HDFS客户端是一个库,包含HDFS文件系统接口,这些接口隐藏了HDFS实现中的大部分复杂性
D 客户端是HDFS的一部分,是部署HDFS的必备组件
答案:ABCD
(多选题)Flume采集海量日志数据时,经常会遇到性能瓶颈,可以通过以下哪些方式提升Flume性能?
A 增加Source数量
B 修改batchSize和capacity
C 优化Flume GC参数
D 增加Flume级联节点
答案:ABCD
(多选题)Flink提供了内置的状态管理,可以把工作时状态存储在Fink内部,而不需要把它存储在外部系统。这样做的好处包含以下哪些选项?
A 降低了计算引擎对外部系统的依赖,使得部署、运维更加简单
B 确保了数据在处理过程中的一致性
C 对性能带来了极大的提升
D 实现了高吞吐、高性能特性,但无法做到低延迟保障
答案:ABC
(多选题)Spark发生Shuffle时会延长任务执行时间,下列哪些选项不能 够 减少shuffle次数?
A 更换shuffle机制
B 增强集群性能快速执行shuffle
C 多用transformation算子少用action算子
D 避免使用groupBy、reduceByKey等可产生宽依赖的算子
答案:BC
(多选题)Flink的兼容性体现在以下哪些方面?
A 能够从本地获取数据
B 能够与Hadoop原有的Mappers和Reducers混合使用
C 能够使用Hadoop的格式化输入和输出
D YARN能够作为Flink集群的资源调度管理器
答案:ACD
(多选题)下列哪些选项对RDD描述正确?
A RDD是只读的
B RDD进行数据恢复时所有分区同时进行
C RDD依赖血统机制恢复数据
D RDD是只读的所以RDD不支持写操作
答案:ACD
(多选题)以下哪些选项属于数据地图支持的功能?
A 通过血缘分析可以查看每个数据表的来源、去向。
B 通过血缘分析可以查看每个表及字段的加工逻辑
C 可以根据表名直接查看表详情
D 可以通过关键词搜索数据资产
答案:ABCD
(多选题)Kafka中日志的清理方式包含以下哪些项?
A remove
B update
C compact
D delete
答案:CD
(多选题)关于Spark SQL &Hive区别与联系,下列说法正确的是?
A Spark SQL依赖Hive的元数据
B Spark SQL的执行引擎为Spark Core,Hive默认执行引擎为MapReduce
C Spark SQL不可以使用Hive的自定义函数
D Spark SQL兼容绝大部分Hive的语法和函数
答案:BD
(多选题)Flink的时间窗口根据实现原理的不同可分为以下哪些窗口?
A 会话窗口(Session Window)
B 计数窗口(CountWindow)
C 滑动窗口(Sliding Window)
D 滚动窗口(Tumbling Window)
答案:ACD
(多选题)某电商公司同时运行MapReduce离线分析任务和Spark实时分析任务,若使用Yarn的Capacity调度器,资源分配如何进行?
A 离线分析任务和实时分析任务安排在不同队列且优先满足实时分析任务的资源需求
B 离线分析任务和实时分析任务安排在同一队列
C 离线分析任务和实时分析任务安排在同一队列且优先满足实时分析任务的资源需求
D 离线分析任务和实时分析任务安排在不同队列
答案:AD
(多选题)以下关于clickHouse增强特性的描述,正确的是哪些项?
A 默认采用两副本方式、自动生成集群分片拓扑
B 实现滚动升级/滚动重启
C 平滑的弹性扩容能力
D 提供了基于ELB的HA部署架构
答案:ABCD
判断题
(判断题)Kafka中,Leader主要负责监控Follower的运行状态,Follower主要负责数据的读写
(判断题)Yarn-client和Yarn-cluster主要区别是Application Master进程的区别
(判断题)Spark任务的Container可以运行多个task。
(判断题)在YARN的任务调度中,一旦Application Master 申请到资源后,便与对应的Resource Manager 通信,要求它启动任务
(判断题)MySQL引警用于将远程的MySQL服务器中的表映射到ClickHouse中,并允许您对表进行INSERT和SELECT查询,以方便您在clickHouse与MySqL之间进行数据交换。
(判断题)ElasticSearch 的倒排索引所采用的排序方式,是通过Value找Key。在全文搜索中Value就是要搜索的关键词,通过Vaue找到对应的文档。
(判断题)Kafka的Producer和Customer数量必须相同
(判断题)Kafka中分布式消息传递基于可靠的消息队列,支持客户端应用和消息系统之间异步传递消息
(判断题)Spark和Hadoop一样不适用于选代计算。
(判断题).MapReduce某一任务失败时可通过重试机制重新计算该任务。
(判断题)ClickHouse是俄罗斯yandex公司开发的OLTP数据库管理系统
(判断题)HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统
(判断题)一个Spark应用程序运行时,如果某个task运行失败,则整个app运行失败
(判断题)MRS会保存用户设置的登录Master节点的初始密码。为避免被恶意攻击,建议设置复杂度高的密码
(判断题)StructuredStreaming接收结构化数据流生成无边界表,随着时间积累该表越来越大最终会导致数据过大无法计算。
(判断题)Spark Streaming计算基于DStream,将流式计算分解成一系列短小的批处理作业。
(判断题)容量调度器在进行资源分配时,现有同级的2个列队Q1和Q2,它们的容量均为30, 其中Q1已使用8,Q2已使用14,则会优先将资源分配给Q1。
填空题
(填空题)Kafka集群包含一个或多个服务实例,这个服务实例被称为______
(填空题)Flume在传输数据过程中,可以对数据进行简单过滤,主要通过设置_____在source和channel之间(写Chamne1之前)对不关心的数据进行过滤。
(填空题)RDD有宽窄依赖,当宽依赖发生时产生______降低集群性能
(填空题)Yarn做资源调度时,任务运行所需的资源是由( )提供的
(填空题)ClickHouse支持CLI客户端和( )(请填写大写的英文缩写词)客户端访问。
(填空题)用于记录Kafka中消息读取位置的是____________
(填空题)ClickHouse提供( )(请填写大写的英文缩写词) 、HTTP两种访问协议。
2026年1月6日
Back to top
↑