大数据HCIA 03

大数据HCIA 03

单选题

(单选题)以下哪个选项不是元数据管理的目的?

  • A 数据平台建设
  • B 业务系统建设
  • C 信息资源规划
  • D 数据价值挖掘
  • 答案:B

(单选题)Flume中数据压缩特性主要是基于以下哪种目的?

  • A 提高可靠性
  • B 增强安全性
  • C 降低磁盘IO
  • D 降低网络IO
  • 答案:D

(单选题)MapReduce、Spark和Flink都可以同时支持以下哪种数据处理方式?

  • A Kv查询
  • B 批处理
  • C 流处理
  • D 实时检索
  • 答案:B

(单选题)ElasticSearch的索引可以存储在多种存储类型,而以下哪种存储类型不支持?

  • A 共享文件系统
  • B HDFS
  • C 对象存储
  • D 本地文件系统
  • 答案:B

(单选题)MapReduce程序由Map和Reduce两部分组成,现由MapReduce程序,其有5个reduce任务,该程序最终输出多少个结果文件?

  • A 2
  • B 4
  • C 5
  • D 3
  • 答案:C

(单选题)默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?

  • A 随机生成
  • B 用户指定
  • C 根据资源自行生成任务数
  • D 该任务所计算的数据块数量
  • 答案:B

(单选题)Capacity调度器为每个队列分配资源,下列哪个选项是队列内的资源调度策略?

  • A Fair
  • B Mesos
  • C FIFO
  • D Capacity
  • 答案:C

(单选题)可视化运维是clickHouse非常重要的特性,以下关于c1ickHouse可视化运维的描述,错误的是哪一项?

  • A 提供日志级别可视化配置、实时动态生效
  • B 华为增加审计日志,针对DDL、安全、业务操作等内容记录审计
  • C 可以选择可视化日志下载、并可以选择下载的节点以及下载的日志时间段,后台下载日志。
  • D 提供ClickHouse安装配置、启停、客户端、70+项监控告警指标、健康检查等可视化运维手段。
  • 答案:C

(单选题)在ZooKeeper和YARN的协同工作中,当Active ResourceManager产生故障时时, StandbyResourceManager会从以下哪个目录中获取Application相关信息?

  • A Warehouse
  • B Storage
  • C Statestore
  • D Metastore
  • 答案:C

(单选题)以下哪一个因素助力了大数据时代的蓬勃发展?

  • A 硬件成本的降低和网络带宽的提升
  • B 云计算的兴起
  • C 智能终端的普及和社交需求的提升
  • D 以上全都正确
  • 答案:D

(单选题)Flume需要实时采集点击流日志到Kafka,用于后续的实时分析处理,选择以下哪种Source类型进行数据采集最为合适?

  • A http source
  • B spooling directory source
  • C syslog source
  • D kafka source
  • 答案:B

(单选题)默认情况下Flink不开启检查点,用户需要在程序中通过调用以下那种方法配置和开启检查点?

  • A env.getCheckpointConfig().setCheckpointingTimeout(60000)
  • B env.enableCheckpointing(1000)
  • C env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)
  • D env.startSetCheckpointing(1000)
  • 答案:B

(单选题)YARN的基于标签调度,是对下列选项中的哪个进行标签化?

  • A AppMaster
  • B NodeManager
  • C Container
  • D ResourceManager
  • 答案:B

(单选题)某公司开展大数据业务,其不但要使用MapReduce做离线分析还要使用Spark做实时分析。若使用Yarn做统一的资源管理,调度器如何选择?

  • A 使用Capacity调度器
  • B 使用FIFO调度器
  • C 使用Fair调度器
  • D 使用Mesos调度器
  • 答案:A

(单选题)下列哪个不是HBase读取数据流程中涉及的角色或服务?

  • A HDFS
  • B ZooKeeper
  • C HRegionServer
  • D HMaster
  • 答案:D

(单选题)HBase的主HMaster是如如何选举的?

  • A 通过ZooKeeper进行裁决
  • B 由RegionServer进行裁决
  • C HMaster为双主模式,不需要进行裁决
  • D 随机选取
  • 答案:A

(单选题)HBase中Region的物理存储单元是什么?

  • A Column
  • B ColumnFamily
  • C Row
  • D Region
  • 答案:B

(单选题)HDFS中NameNode的主备仲裁,是由哪个组件控制的?

  • A HDFS Client
  • B Resource Manager
  • C Node Manager
  • D ZooKeeper Failover Controller
  • 答案:D

(单选题)HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输,以下关于HDFS的通讯协议描述错误的是

  • A 所有的HDFS通信协议都是构建在TCP/IP协议基础之上
  • B 名称节点和数据节点之间则使用名称节点协议进行交互
  • C 名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求
  • D 客户端与数据节点的交互是通过RPC来实现的
  • 答案:B

多选题

(多选题)以下关于建设私有云大数据平台的痛点的描述,正确的是哪些项?

  • A 安全性差,无灾备能力
  • B 提前建设,建设成本高
  • C 维护难度大
  • D 业务上线速度慢
  • 答案:ABCD

(多选题)ElasticSearch扩容的场景包括哪些?

  • A 集群数据量诚少
  • B ElasticSearch单实例的索引数据太大
  • C 节点需要重新安装操作系统
  • D 物理资源消耗过大
  • 答案:BD

(多选题)在MRS集群中,Spark主要与以下哪些组件进行交互?

  • A YARN
  • B Hive
  • C Hdfs
  • D ZooKeeper
  • 答案:ABCD

(多选题)在DataArts Studio平台中,以下哪些选项属于权限访问控制的功能特性?

  • A 集中式访问控制
  • B 详细的授权、鉴权日志审计
  • C 实现对MRS服务中的资源进行精细访问控制
  • D 丰富的权限策略配置
  • 答案:ABCD

(多选题)以下关于Hudi支持的视图的描述,正确的是哪些项?

  • A 增量视图
  • B 写优化视图
  • C 读优化视图
  • D 实时视图
  • 答案:ACD

(多选题)下面哪些是ElasticSearch的特点?

  • A 高可靠性
  • B 高容错性
  • C 高性能
  • D 高扩展性
  • 答案:ABCD

(多选题)Flink支持的时间操作类型包括以下哪些选项?

  • A 处理时间
  • B 结束时间
  • C 采集时间
  • D 事件时间
  • 答案:ACD

(多选题)下列选项中,哪个是Spark的重要角色?

  • A Driver
  • B NodeManager
  • C ResourceManager
  • D DataNode
  • 答案:A

(多选题)Flink流式处理的数据源类型包括?

  • A Socket streams
  • B JDBC
  • C Files
  • D Collections
  • 答案:ABCD

(多选题)某MapReduce程序运行时,AppMaster发生故障。下列哪些选项对该任务描述正确?

  • A 任务仍可运行
  • B 任务立即停止
  • C AppMaster不再启动
  • D App Master再次启动
  • 答案:AD

判断题

(判断题)HBase中当一个Region的size逐渐变大时,它可能会被修剪。

  • A 正确
  • B 错误
  • 答案:A

(判断题)DataSet从Spark2.0正式启用,兼具DataFrame和RDD的特点,RDD也不再使用。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Spark和Hive同时部署时,若Spark SQL要获取Hive元数据,Spark SQL需要在启动后手动执行同步操作。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Spark和和Hadoop一样不适用于迭代计算。

  • A 正确
  • B 错误
  • 答案:B

(判断题)在MapReduce编程中,业务逻辑一般需要自行写代码实现mapper和reducer。

  • A 正确
  • B 错误
  • 答案:A

(判断题)这是一种可以存储、查询和Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),分析存储在Hadoop中的大规模数据的机制。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Elasticsearch默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flume在传输数据过程中,如果下一跳的Flume节点故障或者数据接受异常时,可以自动切换到另外一路上继续传输。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Kafka中,每个Consumer都属于一个Consumer Group,每条消息只能被Consumer Group中的一个Consumer消费,但可以被多个Consumer Group消费。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应个文件夹,该文件夹下存储这个Partition的所有消息。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flink中基于异步轻量级的分布式快照技术提供了Checkpoints容错机制,分布式快照可以将不同时间点Task/Operator的状态数据全局统一快照处理。

  • A 正确
  • B 错误
  • 答案:A

(判断题)HBase的BloomFilter是用来过滤数据的

  • A 正确
  • B 错误
  • 答案:A

(判断题)HDFS中,块(Block)的大小远远大于普通文件系统的最小单元,可以最小化寻址开销。

  • A 正确
  • B 错误
  • 答案:A

(判断题)MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码0修改,业务0中断”。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Spark任务的每个Stage划分为几个Job,划分的标记是Shuffle。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Sparkon Yarn-client适合用于生产环境是因为可以更快的看到APP的输出

  • A 正确
  • B 错误
  • 答案:B

填空题

(填空题)SparkStreaming是将实时输入数据流以____为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。

  • 答案:时间片

(填空题)Flink状态保存主要依靠( )机制,该机制会定时对程序中的状态进行备份。

  • 答案:Checkpoint

(填空题)Yarn做资源调度时,maptask和reduceTask是运行在( )中

  • 答案:container

(填空题)HBase会周期性的把MemStore的数据刷写到磁盘_____文件中。

  • 答案:HFile

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Back to top