大数据HCIA 03
大数据HCIA 03
单选题
(单选题)以下哪个选项不是元数据管理的目的?
- A 数据平台建设
- B 业务系统建设
- C 信息资源规划
- D 数据价值挖掘
- 答案:B
(单选题)Flume中数据压缩特性主要是基于以下哪种目的?
- A 提高可靠性
- B 增强安全性
- C 降低磁盘IO
- D 降低网络IO
- 答案:D
(单选题)MapReduce、Spark和Flink都可以同时支持以下哪种数据处理方式?
- A Kv查询
- B 批处理
- C 流处理
- D 实时检索
- 答案:B
(单选题)ElasticSearch的索引可以存储在多种存储类型,而以下哪种存储类型不支持?
- A 共享文件系统
- B HDFS
- C 对象存储
- D 本地文件系统
- 答案:B
(单选题)MapReduce程序由Map和Reduce两部分组成,现由MapReduce程序,其有5个reduce任务,该程序最终输出多少个结果文件?
- A 2
- B 4
- C 5
- D 3
- 答案:C
(单选题)默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?
- A 随机生成
- B 用户指定
- C 根据资源自行生成任务数
- D 该任务所计算的数据块数量
- 答案:B
(单选题)Capacity调度器为每个队列分配资源,下列哪个选项是队列内的资源调度策略?
- A Fair
- B Mesos
- C FIFO
- D Capacity
- 答案:C
(单选题)可视化运维是clickHouse非常重要的特性,以下关于c1ickHouse可视化运维的描述,错误的是哪一项?
- A 提供日志级别可视化配置、实时动态生效
- B 华为增加审计日志,针对DDL、安全、业务操作等内容记录审计
- C 可以选择可视化日志下载、并可以选择下载的节点以及下载的日志时间段,后台下载日志。
- D 提供ClickHouse安装配置、启停、客户端、70+项监控告警指标、健康检查等可视化运维手段。
- 答案:C
(单选题)在ZooKeeper和YARN的协同工作中,当Active ResourceManager产生故障时时, StandbyResourceManager会从以下哪个目录中获取Application相关信息?
- A Warehouse
- B Storage
- C Statestore
- D Metastore
- 答案:C
(单选题)以下哪一个因素助力了大数据时代的蓬勃发展?
- A 硬件成本的降低和网络带宽的提升
- B 云计算的兴起
- C 智能终端的普及和社交需求的提升
- D 以上全都正确
- 答案:D
(单选题)Flume需要实时采集点击流日志到Kafka,用于后续的实时分析处理,选择以下哪种Source类型进行数据采集最为合适?
- A http source
- B spooling directory source
- C syslog source
- D kafka source
- 答案:B
(单选题)默认情况下Flink不开启检查点,用户需要在程序中通过调用以下那种方法配置和开启检查点?
- A env.getCheckpointConfig().setCheckpointingTimeout(60000)
- B env.enableCheckpointing(1000)
- C env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)
- D env.startSetCheckpointing(1000)
- 答案:B
(单选题)YARN的基于标签调度,是对下列选项中的哪个进行标签化?
- A AppMaster
- B NodeManager
- C Container
- D ResourceManager
- 答案:B
(单选题)某公司开展大数据业务,其不但要使用MapReduce做离线分析还要使用Spark做实时分析。若使用Yarn做统一的资源管理,调度器如何选择?
- A 使用Capacity调度器
- B 使用FIFO调度器
- C 使用Fair调度器
- D 使用Mesos调度器
- 答案:A
(单选题)下列哪个不是HBase读取数据流程中涉及的角色或服务?
- A HDFS
- B ZooKeeper
- C HRegionServer
- D HMaster
- 答案:D
(单选题)HBase的主HMaster是如如何选举的?
- A 通过ZooKeeper进行裁决
- B 由RegionServer进行裁决
- C HMaster为双主模式,不需要进行裁决
- D 随机选取
- 答案:A
(单选题)HBase中Region的物理存储单元是什么?
- A Column
- B ColumnFamily
- C Row
- D Region
- 答案:B
(单选题)HDFS中NameNode的主备仲裁,是由哪个组件控制的?
- A HDFS Client
- B Resource Manager
- C Node Manager
- D ZooKeeper Failover Controller
- 答案:D
(单选题)HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输,以下关于HDFS的通讯协议描述错误的是
- A 所有的HDFS通信协议都是构建在TCP/IP协议基础之上
- B 名称节点和数据节点之间则使用名称节点协议进行交互
- C 名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求
- D 客户端与数据节点的交互是通过RPC来实现的
- 答案:B
多选题
(多选题)以下关于建设私有云大数据平台的痛点的描述,正确的是哪些项?
- A 安全性差,无灾备能力
- B 提前建设,建设成本高
- C 维护难度大
- D 业务上线速度慢
- 答案:ABCD
(多选题)ElasticSearch扩容的场景包括哪些?
- A 集群数据量诚少
- B ElasticSearch单实例的索引数据太大
- C 节点需要重新安装操作系统
- D 物理资源消耗过大
- 答案:BD
(多选题)在MRS集群中,Spark主要与以下哪些组件进行交互?
- A YARN
- B Hive
- C Hdfs
- D ZooKeeper
- 答案:ABCD
(多选题)在DataArts Studio平台中,以下哪些选项属于权限访问控制的功能特性?
- A 集中式访问控制
- B 详细的授权、鉴权日志审计
- C 实现对MRS服务中的资源进行精细访问控制
- D 丰富的权限策略配置
- 答案:ABCD
(多选题)以下关于Hudi支持的视图的描述,正确的是哪些项?
- A 增量视图
- B 写优化视图
- C 读优化视图
- D 实时视图
- 答案:ACD
(多选题)下面哪些是ElasticSearch的特点?
- A 高可靠性
- B 高容错性
- C 高性能
- D 高扩展性
- 答案:ABCD
(多选题)Flink支持的时间操作类型包括以下哪些选项?
- A 处理时间
- B 结束时间
- C 采集时间
- D 事件时间
- 答案:ACD
(多选题)下列选项中,哪个是Spark的重要角色?
- A Driver
- B NodeManager
- C ResourceManager
- D DataNode
- 答案:A
(多选题)Flink流式处理的数据源类型包括?
- A Socket streams
- B JDBC
- C Files
- D Collections
- 答案:ABCD
(多选题)某MapReduce程序运行时,AppMaster发生故障。下列哪些选项对该任务描述正确?
- A 任务仍可运行
- B 任务立即停止
- C AppMaster不再启动
- D App Master再次启动
- 答案:AD
判断题
(判断题)HBase中当一个Region的size逐渐变大时,它可能会被修剪。
- A 正确
- B 错误
- 答案:A
(判断题)DataSet从Spark2.0正式启用,兼具DataFrame和RDD的特点,RDD也不再使用。
- A 正确
- B 错误
- 答案:B
(判断题)Spark和Hive同时部署时,若Spark SQL要获取Hive元数据,Spark SQL需要在启动后手动执行同步操作。
- A 正确
- B 错误
- 答案:B
(判断题)Spark和和Hadoop一样不适用于迭代计算。
- A 正确
- B 错误
- 答案:B
(判断题)在MapReduce编程中,业务逻辑一般需要自行写代码实现mapper和reducer。
- A 正确
- B 错误
- 答案:A
(判断题)这是一种可以存储、查询和Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),分析存储在Hadoop中的大规模数据的机制。
- A 正确
- B 错误
- 答案:A
(判断题)Elasticsearch默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘
- A 正确
- B 错误
- 答案:A
(判断题)Flume在传输数据过程中,如果下一跳的Flume节点故障或者数据接受异常时,可以自动切换到另外一路上继续传输。
- A 正确
- B 错误
- 答案:A
(判断题)Kafka中,每个Consumer都属于一个Consumer Group,每条消息只能被Consumer Group中的一个Consumer消费,但可以被多个Consumer Group消费。
- A 正确
- B 错误
- 答案:A
(判断题)Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应个文件夹,该文件夹下存储这个Partition的所有消息。
- A 正确
- B 错误
- 答案:A
(判断题)Flink中基于异步轻量级的分布式快照技术提供了Checkpoints容错机制,分布式快照可以将不同时间点Task/Operator的状态数据全局统一快照处理。
- A 正确
- B 错误
- 答案:A
(判断题)HBase的BloomFilter是用来过滤数据的
- A 正确
- B 错误
- 答案:A
(判断题)HDFS中,块(Block)的大小远远大于普通文件系统的最小单元,可以最小化寻址开销。
- A 正确
- B 错误
- 答案:A
(判断题)MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码0修改,业务0中断”。
- A 正确
- B 错误
- 答案:A
(判断题)Spark任务的每个Stage划分为几个Job,划分的标记是Shuffle。
- A 正确
- B 错误
- 答案:B
(判断题)Sparkon Yarn-client适合用于生产环境是因为可以更快的看到APP的输出
- A 正确
- B 错误
- 答案:B
填空题
(填空题)SparkStreaming是将实时输入数据流以____为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。
- 答案:时间片
(填空题)Flink状态保存主要依靠( )机制,该机制会定时对程序中的状态进行备份。
- 答案:Checkpoint
(填空题)Yarn做资源调度时,maptask和reduceTask是运行在( )中
- 答案:container
(填空题)HBase会周期性的把MemStore的数据刷写到磁盘_____文件中。
- 答案:HFile