大数据HCIA 04

大数据HCIA 04

单选题

(单选题)下面哪些场景不是Flink组件擅长的?

  • A 批处理
  • B 流处理
  • C 数据存储
  • D 迭代计算
  • 答案:C

(单选题)银行为了数据传输的可靠性,使用Flume采集数据,主要是利用Flume的哪个特性?

  • A 支持采集日志文件
  • B 事务机制
  • C 支持级联
  • D 支持在定制各类数据发送方
  • 答案:B

(单选题)kafka-clustermirroring工具可以实现以下那些功能?

  • A kafka 集群数据同步方案
  • B kafka 单集群内数据备份
  • C kafka 单集群内数据恢复
  • D 以全部不对
  • 答案:A

(单选题)Flume采集日志数据,若不考虑数据安全性。要达到最高采集速度,应该用什么类型的Channel?

  • A File Channel
  • B JDBC Channel
  • C Memory Channel
  • D HDFS Channel
  • 答案:C

(单选题)以下关于ElasticSearch的特点,描述不正确的是哪一项?

  • A 目前只支持结构化数据查询
  • B 自动检测故障并保障集群的安全性和可用性
  • C 能立即获得搜索结果,实现了用于全文检索的倒排索引
  • D 支持水平扩展,可运行于成百上千台服务器上
  • 答案:A

(单选题)下图展示了Structured Streaming的计算模型。通过观察可以得出最终T3的计算结果是?

  • A Cat 2;dog 4;owl 2
  • B Dog 1;owl 1
  • C Cat 2;dog 3;owl 1
  • D Cat 1;cat 1:Dog 2:dog 2;owl 2
  • 答案:A

(单选题)ZooKeeper在分布式应用中的主要作用不包括以下哪个选项?

  • A 保证各节点上数据的一致性
  • B 选举Master节点
  • C 存储集群中服务器信息
  • D 分配集群资源
  • 答案:D

(单选题)HBase在读取数据时率先读取下列哪个选项数据?

  • A MemStore数据
  • B HLog数据
  • C Hfile数据
  • D StoreFile数据
  • 答案:A

(单选题)查看Kafka某Topic的Partition详细信息时,使用如下哪个命令?

  • A bin/kafka-topics. sh –list
  • B bin/kafka-topics. sh –describe
  • C bin/kafka-topics. sh –delete
  • D bin/kafka-topics. sh –create
  • 答案:B

(单选题)Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听?

  • A ACK
  • B 分布式锁机制
  • C checkpo int
  • D watcher
  • 答案:D

(单选题)以下关于MRS服务的安全认证的描述,正确的是哪一项?

  • A 不提供单点登录,统一了MRS系统用户和组件用户的管理及认证。
  • B 对登录Manager的用户进行审计。
  • C 支持安全协议Kerberos, MRS使用Kerberos作为帐户管理系统,并通过LDAP对帐户信息进行安全认证。
  • D 基于用户和角色的认证统一体系,遵从帐户/角色RBAC (Role-Based Access Control)模型,实现通过账户进行权限管理,对角色进行批量授权管理。
  • 答案:D

(单选题)以下关于ClickHouse设计优点的描述,错误的是哪一项?

  • A 多核并行计算
  • B 向量化计算引擎
  • C 数据压缩比低
  • D 支持嵌套数据结构
  • 答案:C

(单选题)以下关于Kerboers的优势的描述错误的是哪个?(9.10讲师校对)

  • A Kerboers支持双向鉴别,Kerboers的Server端通过返回Ciient发送的时间戳,向Client提供验证自己身份的手段。
  • B 由KDC代为发送Authenticator和Session Ticket.有效提高性能。
  • C 用于认证的Session key是short term key.只在一次会话中有效,有效防止暴力破解。
  • D 每个请求都以时间戳进行标记,有效防止重放攻击。
  • 答案:B

(单选题)硬件故障被认为是常态,为了解决这个问题.HDFS设计了副本机制。默认情况下,一份文件,HDFS会存()份?

  • A 3
  • B 4
  • C 2
  • D 5
  • 答案:A

(单选题)Flume包含Source、 Channe1和Sink三大组件,以下关于这三大组件说法错误的是哪一项?

  • A 当Sink成功地将events发送到下一跳的Channel或最终目的时, events会从Channel移除
  • B Channel支持事务,提供较弱的顺序保证,可以连接多个的Source和Sink
  • C Sink必须作用于一个确切的Channel
  • D Source负责接收events或通过特殊机制产生events,并将events批量放到多个Channel中
  • 答案:B

(单选题)以下不属于单点登录特点的是?

  • A 访问其他组件需要重新登录
  • B 提高运维和管理效率
  • C 为用户提供便捷服务
  • D 简化应用系统的开发
  • 答案:A

(单选题)Fusionlnsight HD集群规划中,管理节点&控制节点&数据节点合一部署方案适合什么样的场景?

  • A 30节点以下
  • B 100节点以上
  • C 100-200节点
  • D 200节点以上
  • 答案:A

(单选题)ElasticSearch有哪些查询类型?

  • A 基于分值数检索
  • B 基于元数据检索
  • C 基于词条检索
  • D 基于全文检索
  • 答案:D

(单选题)以下关于Flink数据处理描述错误的是哪一项?

  • A Apache Flink它同时支持批处理和流处理,也能用来做一些基于事件的应用
  • B 如果处理一个事件(或一条数据)的结果只跟事件本身的内容有关,称为状态处理
  • C 流可以分为有界流和无界流,其中有界流可以在读取所有数据后再进行计算
  • D Apache Flink基本数据模型是数据流,流可以是无边界的无限流
  • 答案:B

(单选题)以下关于分布式消息传递方式描述不正确的是哪一项?

  • A 在点对点消息系统中,可能会有多个消费者同时消费数据,因此不能保证数据处理的顺序
  • B 在点对点消息系统中,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除
  • C 分布式消息传递有两种主要的消息传递模式,点对点传递模式、发布-订阅模式
  • D 在发布-订阅消息系统中,同一条数据可以被多个消费者消费,数据被消费后不会立马删除
  • 答案:A

(单选题)在数据流处理过程中,经常使用系统时间作为某个事件的时间,关于系统时间描述错误的是哪一项?

  • A Processing Time结果是不可复现的,一旦流式计算版本升级甚至系统崩溃,计算将会停止
  • B 实际应用过程中,processing time要落后于event time
  • C processing time和event time之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的
  • D Processing Time适用于处理问题复杂、对结果可溯要求较高的场景
  • 答案:D

(单选题)Hive运行流程包括下面几步,请选择正确的顺序1:Hive根据表类型更新HDFS或Hive仓库中的数据2:Client提交HQL命令3:YARN为群集中的应用程序分配资源,并为YARN队列中的Hive作业启用授权4:Tez执行查询5:Hive通过JDBC连接返回查询结果

  • A 21345
  • B 23415
  • C 24135
  • D 21435
  • 答案:B

(单选题)HBase表设计中,下列哪个选项不适合做RowKey?

  • A 用户ID
  • B 用户名
  • C 身份证号
  • D 手机号
  • 答案:B

(单选题)在ZooKeeper中可以通过以下哪个命令创建节点数据?

  • A set /node data
  • B get /node
  • C create /node
  • D ls /node
  • 答案:C

多选题

(多选题)若HDFS单名称节点部署,可能存在哪些局限性?

  • A 影响基于HDFS的上层组件的功能实现
  • B 整个分布式文件系统的吞吐量,受限于单个名称节点的吞吐量
  • C 一旦这个唯一的名称节点发生故障,会导致整个集群不可用
  • D 名称节点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制
  • 答案:BCD

(多选题)FusionInsight HD产品在部署Kerberos和LDAP服务时,以下描述正确的是?

  • A 部署Kerberos服务之前,必须先部署LDAP服务
  • B LDAP服务必须和Kerberos服务部署在同—个节点
  • C Kerberos服务和LDAP服务部署同一个节点利于数据访问,有助于性能提升
  • D LDAP服务可以多个集群共享
  • 答案:D

(多选题)HBase集群定时执行Compaction的目的是什么?

  • A 提升数据读取性能。
  • B 减少同一个Region的文件数目。
  • C 减少同一个Region同一个ColumrFamily下的文件数目。
  • D 提升数据写入能力
  • 答案:AC

(多选题)以下选项中,属于HDFS架构关键特性的是?

  • A 健壮机制
  • B 多方式访问机制
  • C HA高可靠性
  • D 元数据持久化机制
  • 答案:ABCD

(多选题)HBase可用于下列哪些应用场景?

  • A 时序数据存储
  • B 消息/订单存储
  • C 好友推荐
  • D 用户画像
  • 答案:ABD

(多选题)在MRS服务中,关于Kafka组件说法正确的是?

  • A Karka的Producer发送消息时,可以指定该消息被哪个Consumer消费。
  • B Kaka会将元数据信息存放到ZooKeeper上。
  • C 在创建Topic时,本数不得大于当前存活的Braker实例个数,否则创建Topic将会失败。
  • D Kaka安装完成后就不能再配置数据存放目录。
  • 答案:ABCD

(多选题)关于HDFS中Name Node的作用描述的正确的是?

  • A 管理HDFS的名称空间(NameSpace )
  • B 配置副本策略通常为3份
  • C 处理客户端读写请求
  • D 执行数据块的读/写操作
  • 答案:ABC

(多选题)下列哪些措施是为了保障数据的完整性?

  • A 元数据可靠性保证
  • B 安全模式
  • C 集群数据均衡
  • D 重建失效数据盘的副本数据
  • 答案:ABCD

(多选题)下列关于Flink中Transformation的说法正确的是?

  • A 可以通过window设定时间窗口
  • B flatMap可以对文本进行切分
  • C keyBy是将源头数据按照key进行分组,以保证同一个key的源数据分到同样的组中
  • D filter操作是对每个元素执行boolean函数
  • 答案:ABCD

(多选题)在数据流处理过程中,每个事件的时间可以分为以下哪些种类?

  • A delay time,即事件发生到处理的延迟时间
  • B processing time,即事件被系统处理的时间
  • C lingestion time.即事件到达流处理系统的时间
  • D event time,即事件发生时的时间
  • 答案:BCD

(多选题)下列选项对列族描述正确的是?

  • A 列族也有版本号
  • B 由若干列组成
  • C 一个列族最多容纳3个列
  • D 是基本的访问控制单元
  • 答案:ABD

(多选题)关于HBase组件的描述,正确的是?

  • A 是一种NoSQL数据
  • B 是分布式的
  • C 是面向列的
  • D 存储数据是以K-v的形式
  • 答案:ABCD

(多选题)以下关于Loader Server的主要功能描述正确的有哪些选项?

  • A 执行Loader作业
  • B 管理连接器和元数据
  • C 处理客户端请求
  • D 监控Loader作业状态
  • 答案:ABD

(多选题)下列属于Dws的典型应用场景的是

  • A 数据集市
  • B CRM/ERP
  • C 交易系统
  • D 企业级数据仓库
  • 答案:AD

(多选题)以下哪些选项不是企业的主数据?

  • A 业务活动产生的合同、计划、单据等结果或规则数据
  • B 经过加工、计算、汇总后的指标数据
  • C 描述产品、客户、人员、组织等业务实体的档案数据
  • D 生产线上由设备自动采集的感知、检测数据
  • 答案:ABD

(多选题)Gs_dump和gs_dumpall的异同点是

  • A 二者都支持纯文本格式数据的导出。
  • B ds_dump只支持纯文本格式的数据导出,dsdumpall支持多种数据格式的数据导出。
  • C 二者都支持公共全局对象的数据导出。
  • D ds_dump 针对的是单个数据库,ds_dumpall针对的是所有数据库。
  • 答案:AD

(多选题)Redis数据持久化技术有RDB和AOF,以下描述正确的是哪些选项?

  • A Rdb方式的持久化是通过快照完成的
  • B RDB和AOF可单独使用,也可以配合使用
  • C RDB方式是默认开启的,而AOF功能需要另外开启
  • D AOF方式的持久化是通过日志文件的方式完成的
  • 答案:ABCD

(多选题)在Kafka中,以下消息传输语义中不会导致消息丢失的是哪些选项?

  • A 最多一次(At Most Once)
  • B 最少一次(At Lease Once)
  • C 超过一次(More Than Once)
  • D 仅有一次(Exactly Once)
  • 答案:BD

(多选题)某大型企业需要做日志分析、运维监控、搜索与推荐、数据库加速,可为该企业推荐哪些服务?

  • A 云搜索服务css
  • B 数据仓库服务DWS
  • C 数据湖治理中心DGC
  • D MapReduce服务
  • 答案:ABCD

(多选题)ElasticSearch对有结构化、半结构化、非结构化类型的数据有哪些处理能力?

  • A 写入的数据可以实时的进行检索
  • B 进行清洗、分词、建立倒排索引等一系列操作
  • C 提供全文检索的能力,条件可以包括词或短语
  • D 数据写入时可选重删和压缩功能
  • 答案:ABC

(多选题)下图描述了RDD之间的依赖关系,其中有哪些是宽依赖?

  • A map:C->D
  • B groupby:A->B
  • C join:B &F->G
  • D union:D &E->F
  • 答案:BC

(多选题)FusionlnsightManager的主要功能有以下哪些?

  • A 数据集成
  • B 系统管理
  • C 安全管理
  • D 服务治理
  • 答案:BCD

(多选题)Yarn支持下列哪些调度器?

  • A Mesos
  • B FIFO
  • C Capacity
  • D Fair
  • 答案:BCD

(多选题)MRS服务中,通过Loader数据转换引擎,可实现数据的哪些操作?

  • A 字符串剪切
  • B 字段类型转换
  • C 字符串反序
  • D 字段合并
  • 答案:ACD

(多选题)Flume由哪三部分组成?

  • A Master
  • B Sink
  • C Source
  • D Channel
  • 答案:BCD

(多选题)下图展示了 HDFS 的标签存储策略,观察下图,HBase 的数据会被存储到哪些数据节点

  • A DataNode B
  • B DataNode E
  • C DataNode C
  • D DataNode A
  • 答案:AD

(多选题)通过配置以下哪些参数可清理Kafka中产生的日志?

  • A log. cleanup. policy
  • B log. retention. hours
  • C server. properties
  • D log. retention. Bytes
  • 答案:ABD

(多选题)ElasticSearch支持以下哪些访问接口?

  • A PUT
  • B POST
  • C DELETE
  • D GET
  • 答案:ABCD

判断题

(判断题)为减少写入磁盘的数据量, MapReduce支持对MOF(MapOutFile)进行压缩后再写入。

  • A 正确
  • B 错误
  • 答案:A

(判断题)华为云鲲鹏云服务基于鲲鹏处理器等多元基础设施,涵盖裸机,虚机,容器等形态,具备多核高并发特点,非常适合AI、大数据、HPC、云手机/云游戏等场景。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flume架构中,一个Sink可以连接多个Channel。

  • A 正确
  • B 错误
  • 答案:A

(判断题)数据质量要求各业务部门对相应数据领域的数据质量全权负责,按业务需求设计数据质量标准,制定数据质量管控目标,并遵循企业数据治理费求进行数据质量度量,制定符合各自业务情况的数据质量政策及数据质量相关的改进计划,持续进行数据质量管控.

  • A 正确
  • B 错误
  • 答案:A

(判断题)概念视图里HBase表可以被看成是一个稀疏的行的集合。

  • A 正确
  • B 错误
  • 答案:A

(判断题)RDB支持索引,HBase不支持索引。

  • A 正确
  • B 错误
  • 答案:B

(判断题)数据集市与数据湖最大的区别是,各个集市的数据无法互通,也可能存在重复,相比数据湖,数据集市更像一个个数据烟囱。

  • A 正确
  • B 错误
  • 答案:A

(判断题)二级索引为HBase提供了按照某些列的值进行索引的能力。二级索引先查索引表,再定位到数据表中的位置,不用全表扫描,时延小。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Elasticsearch索引HBase数据是将HBase数据写到HDFS之后, Elasticsearch再建立相应的HBase索引数据,实现HBase数据的全文检索。

  • A 正确
  • B 错误
  • 答案:B

(判断题)HBase数据的存储在物理上是分列族存储的。

  • A 正确
  • B 错误
  • 答案:A

(判断题)MapReduce的核心理念是将一个大的计算任务分解到集群每个节点上。充分运用集群资源,缩短运行时间。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Spark Streaming容错机制是指RDD中任意的Partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。

  • A 正确
  • B 错误
  • 答案:A

(判断题)客户端往任意Zookeeper节点写数据, Zookeeper需要将数据完全同步到其他节点,才可以返回给客户端写成功。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Flume-NG由一个个agent来组成,而每个agent由Source, Channel, Sink三个模块组成。其中Source负责接收数据. Channel负责数据的传输,Sink则负责数据向下一端的发送。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Loader作业的执行过程包括配置数据源位置及数据源属性、从源数据到目标数据的转换规则、目标端属性。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Spark根据RDD的依赖关系来划分Stage,调度器从DAG图末端出发,逆向遍历整个依赖关系链,遇到窄依赖就断开,遇到宽依赖就将其加入当前Stage。

  • A 正确
  • B 错误
  • 答案:B

(判断题)HBase组件中,数据读写服务需要连接Master执行。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Flink用DataStream来表示程序中的流式数据,用户可以认为它们是含有重复数据的可修改的集合(collection), DataStream中元素的数量是无限的。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Zookeeper选举时,当某一个实例获得了半数以上的票数时,则变为leader

  • A 正确
  • B 错误
  • 答案:A

(判断题)MapReduce在Map阶段的combine是一个预分组过程,是可选的。

  • A 正确
  • B 错误
  • 答案:A

(判断题)在Fusioninsight HD系统,Loader作业运行过程中,如果产生脏数据,Loader作业执行结果的状态一定是失败。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Topology的处理逻辑都在bolt中。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Kerberos只能对集群内的服务提供安全认证。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Redis判断一个键是否存在使用exist命令。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Redis采用无中心自组织的结构,节点之间使用Gossip协议来交换节点状态信息。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Yarn作为MapReduce的资源管理器,其依赖HDFS。

  • A 正确
  • B 错误
  • 答案:B

(判断题)MapReduce过程中,默认情况下,一个分片就是一个块,也是一个Map Task.

  • A 正确
  • B 错误
  • 答案:A

填空题

(填空题)ElasticSearch采用______方式索引数据

  • 答案:倒排索引

(填空题)RegionServer故障时,由( )对已故障的RegionServer上的Region进行迁移。

  • 答案:HMaster

(填空题)Yarn支持以下哪些调度器()()()

  • 答案:Fair
Back to top