大数据HCIA 03

大数据HCIA 03

单选题

（单选题）以下哪个选项不是元数据管理的目的?

A 数据平台建设
B 业务系统建设
C 信息资源规划
D 数据价值挖掘
答案：B

（单选题）Flume中数据压缩特性主要是基于以下哪种目的?

A 提高可靠性
B 增强安全性
C 降低磁盘IO
D 降低网络IO
答案：D

（单选题）MapReduce、Spark和Flink都可以同时支持以下哪种数据处理方式?

A Kv查询
B 批处理
C 流处理
D 实时检索
答案：B

（单选题）ElasticSearch的索引可以存储在多种存储类型，而以下哪种存储类型不支持?

A 共享文件系统
B HDFS
C 对象存储
D 本地文件系统
答案：B

（单选题）MapReduce程序由Map和Reduce两部分组成，现由MapReduce程序，其有5个reduce任务，该程序最终输出多少个结果文件?

A 2
B 4
C 5
D 3
答案：C

（单选题）默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?

A 随机生成
B 用户指定
C 根据资源自行生成任务数
D 该任务所计算的数据块数量
答案：B

（单选题）Capacity调度器为每个队列分配资源，下列哪个选项是队列内的资源调度策略?

A Fair
B Mesos
C FIFO
D Capacity
答案：C

（单选题）可视化运维是clickHouse非常重要的特性，以下关于c1ickHouse可视化运维的描述，错误的是哪一项?

A 提供日志级别可视化配置、实时动态生效
B 华为增加审计日志，针对DDL、安全、业务操作等内容记录审计
C 可以选择可视化日志下载、并可以选择下载的节点以及下载的日志时间段，后台下载日志。
D 提供ClickHouse安装配置、启停、客户端、70+项监控告警指标、健康检查等可视化运维手段。
答案：C

（单选题）在ZooKeeper和YARN的协同工作中，当Active ResourceManager产生故障时时, StandbyResourceManager会从以下哪个目录中获取Application相关信息?

A Warehouse
B Storage
C Statestore
D Metastore
答案：C

（单选题）以下哪一个因素助力了大数据时代的蓬勃发展?

A 硬件成本的降低和网络带宽的提升
B 云计算的兴起
C 智能终端的普及和社交需求的提升
D 以上全都正确
答案：D

（单选题）Flume需要实时采集点击流日志到Kafka，用于后续的实时分析处理，选择以下哪种Source类型进行数据采集最为合适?

A http source
B spooling directory source
C syslog source
D kafka source
答案：B

（单选题）默认情况下Flink不开启检查点，用户需要在程序中通过调用以下那种方法配置和开启检查点?

A env.getCheckpointConfig().setCheckpointingTimeout(60000)
B env.enableCheckpointing(1000）
C env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)
D env.startSetCheckpointing(1000)
答案：B

（单选题）YARN的基于标签调度，是对下列选项中的哪个进行标签化?

A AppMaster
B NodeManager
C Container
D ResourceManager
答案：B

（单选题）某公司开展大数据业务，其不但要使用MapReduce做离线分析还要使用Spark做实时分析。若使用Yarn做统一的资源管理，调度器如何选择?

A 使用Capacity调度器
B 使用FIFO调度器
C 使用Fair调度器
D 使用Mesos调度器
答案：A

（单选题）下列哪个不是HBase读取数据流程中涉及的角色或服务?

A HDFS
B ZooKeeper
C HRegionServer
D HMaster
答案：D

（单选题）HBase的主HMaster是如如何选举的?

A 通过ZooKeeper进行裁决
B 由RegionServer进行裁决
C HMaster为双主模式，不需要进行裁决
D 随机选取
答案：A

（单选题）HBase中Region的物理存储单元是什么?

A Column
B ColumnFamily
C Row
D Region
答案：B

（单选题）HDFS中NameNode的主备仲裁，是由哪个组件控制的?

A HDFS Client
B Resource Manager
C Node Manager
D ZooKeeper Failover Controller
答案：D

（单选题）HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输，以下关于HDFS的通讯协议描述错误的是

A 所有的HDFS通信协议都是构建在TCP/IP协议基础之上
B 名称节点和数据节点之间则使用名称节点协议进行交互
C 名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求
D 客户端与数据节点的交互是通过RPC来实现的
答案：B

多选题

（多选题）以下关于建设私有云大数据平台的痛点的描述，正确的是哪些项?

A 安全性差，无灾备能力
B 提前建设，建设成本高
C 维护难度大
D 业务上线速度慢
答案：ABCD

（多选题）ElasticSearch扩容的场景包括哪些?

A 集群数据量诚少
B ElasticSearch单实例的索引数据太大
C 节点需要重新安装操作系统
D 物理资源消耗过大
答案：BD

（多选题）在MRS集群中，Spark主要与以下哪些组件进行交互?

A YARN
B Hive
C Hdfs
D ZooKeeper
答案：ABCD

（多选题）在DataArts Studio平台中，以下哪些选项属于权限访问控制的功能特性?

A 集中式访问控制
B 详细的授权、鉴权日志审计
C 实现对MRS服务中的资源进行精细访问控制
D 丰富的权限策略配置
答案：ABCD

（多选题）以下关于Hudi支持的视图的描述，正确的是哪些项?

A 增量视图
B 写优化视图
C 读优化视图
D 实时视图
答案：ACD

（多选题）下面哪些是ElasticSearch的特点?

A 高可靠性
B 高容错性
C 高性能
D 高扩展性
答案：ABCD

（多选题）Flink支持的时间操作类型包括以下哪些选项?

A 处理时间
B 结束时间
C 采集时间
D 事件时间
答案：ACD

（多选题）下列选项中，哪个是Spark的重要角色?

A Driver
B NodeManager
C ResourceManager
D DataNode
答案：A

（多选题）Flink流式处理的数据源类型包括?

A Socket streams
B JDBC
C Files
D Collections
答案：ABCD

（多选题）某MapReduce程序运行时，AppMaster发生故障。下列哪些选项对该任务描述正确?

A 任务仍可运行
B 任务立即停止
C AppMaster不再启动
D App Master再次启动
答案：AD

判断题

（判断题）HBase中当一个Region的size逐渐变大时，它可能会被修剪。

A 正确
B 错误
答案：A

（判断题）DataSet从Spark2.0正式启用，兼具DataFrame和RDD的特点，RDD也不再使用。

A 正确
B 错误
答案：B

（判断题）Spark和Hive同时部署时，若Spark SQL要获取Hive元数据，Spark SQL需要在启动后手动执行同步操作。

A 正确
B 错误
答案：B

（判断题）Spark和和Hadoop一样不适用于迭代计算。

A 正确
B 错误
答案：B

（判断题）在MapReduce编程中，业务逻辑一般需要自行写代码实现mapper和reducer。

A 正确
B 错误
答案：A

（判断题）这是一种可以存储、查询和Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL),分析存储在Hadoop中的大规模数据的机制。

A 正确
B 错误
答案：A

（判断题）Elasticsearch默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘

A 正确
B 错误
答案：A

（判断题）Flume在传输数据过程中，如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外一路上继续传输。

A 正确
B 错误
答案：A

（判断题）Kafka中，每个Consumer都属于一个Consumer Group，每条消息只能被Consumer Group中的一个Consumer消费，但可以被多个Consumer Group消费。

A 正确
B 错误
答案：A

（判断题）Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应个文件夹，该文件夹下存储这个Partition的所有消息。

A 正确
B 错误
答案：A

（判断题）Flink中基于异步轻量级的分布式快照技术提供了Checkpoints容错机制，分布式快照可以将不同时间点Task/Operator的状态数据全局统一快照处理。

A 正确
B 错误
答案：A

（判断题）HBase的BloomFilter是用来过滤数据的

A 正确
B 错误
答案：A

（判断题）HDFS中，块(Block)的大小远远大于普通文件系统的最小单元，可以最小化寻址开销。

A 正确
B 错误
答案：A

（判断题）MRS服务100%兼容开源大数据生态，结合周边丰富的数据及应用迁移工具，能帮助客户快速完成自建平台的平滑迁移，整个迁移过程可做到“代码0修改，业务0中断”。

A 正确
B 错误
答案：A

（判断题）Spark任务的每个Stage划分为几个Job，划分的标记是Shuffle。

A 正确
B 错误
答案：B

（判断题）Sparkon Yarn-client适合用于生产环境是因为可以更快的看到APP的输出

A 正确
B 错误
答案：B

填空题

（填空题）SparkStreaming是将实时输入数据流以____为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据。

答案：时间片

（填空题）Flink状态保存主要依靠（）机制，该机制会定时对程序中的状态进行备份。

答案：Checkpoint

（填空题）Yarn做资源调度时，maptask和reduceTask是运行在( )中

答案：container

（填空题）HBase会周期性的把MemStore的数据刷写到磁盘_____文件中。

答案：HFile

HCIA

HCIA

发表回复取消回复