大数据HCIA 01

大数据HCIA 01

单选题

(单选题)5:Hive通过JDBC连接返回查询结果

  • A 21345
  • B 24315
  • C 24135
  • D 21435
  • 答案:B

(单选题)HBase表设计中,列族和RowKey是 表设计的重要内容。下列哪个选项不适合做RowKey?

  • A 用户ID
  • B 用户名
  • C 身份证号
  • D 手机号
  • 答案:B

(单选题)HBase中数据存储的文件格式是什么?

  • A HLog
  • B Sequencelile
  • C TextFile
  • D HFile
  • 答案:D

(单选题)关于HDFS数据完整性保障,以下哪个机制是错误的?

  • A 快照机制实现了文件系统常见的快照机制,保证数据误操作时,能及时恢复
  • B 采用日志机制操作元数据,同时元数据存放在主备NameNode上
  • C 节点性能较高的DataNode会存放更多的数据
  • D DataNode向NameNode周期上报失败任务,NameNode发起副本重建动作以恢复丢失副本
  • 答案:C

(单选题)HBase要实现数十亿行数百万列的存储规模,需要以下哪个选项支持?

  • A Redis
  • B ElasticSearch
  • C Kafka
  • D HDFS
  • 答案:D

(单选题)Hadoop中,如果将yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent设置为50,下面说法错误的是?

  • A 一个用户提交任务,可以使用QueueA的100%的资源。
  • B QueueA中的每个用户最多只能获得50%的资源。
  • C QueueA中必须保障每个用户至少得到50%的资源。
  • D 如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。
  • 答案:B

(单选题)在ClickHouse中创建数据表时,指定以下哪一个表引擎会导致重新启动服务器时表中的数据消失,表变为空?

  • A MySQL
  • B Kafka
  • C TinyLog
  • D Memory
  • 答案:D

(单选题)在Hive数据存储模型中,分区和桶的关系描述错误的是哪一项?

  • A 分区下可再有分区或者桶
  • B 每个桶是一个目录
  • C 建表时指定桶个数,桶内可排序。
  • D 分区数量不固定
  • 答案:B

(单选题)Flink程序由Source、Transformatin和Sink三部分组成,以下关于这三部分描述错误的是哪一项?

  • A Sink负责最终数据的输出,支持HDFS、Kafka和文本输出等
  • B 在各部分之间流转的数据会被封装成一个个Event
  • C Source主要负责数据的读取,支持HDFS、Kafka、HBase和文本等
  • D Transformatin主要负责对数据的转换操作
  • 答案:B

(单选题)某公司使用用户ID做HBase的Rowkey,同时在列中还存在phone列,该列存储了用户的手机号码。该公司要求能够通过phone快速查询到用户ID,下列哪个方法比较合适?

  • A Get与valueFiller同时使用
  • B 创建二级索引
  • C Scan与valueFillter同时使用
  • D 使用Fillter
  • 答案:B

(单选题)YARN中设置队列QueueA的最大使用资源量,需要配置哪个参数?

  • A yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
  • B yarn.scheduler.capacity.root.Queuemaximum-capacity
  • C yarn.scheduler.capacity.root.Queueuser-1imit-factor
  • D yarn.scheduler.capacity.root.Queuestate
  • 答案:B

(单选题)某公司使用HBase存储业务数据,由于数据规模较大,所以数据存储在HBase后会导致频繁的Region分裂,为了避免这种情况,下列哪个方法比较适用?

  • A 增加Region大小
  • B 增大MemStore大小
  • C 对该表预分区
  • D 提升RegionServer性能
  • 答案:C

(单选题)HBase命令中下列哪个选项性能最差?

  • A get
  • B put
  • C scan
  • D list
  • 答案:C

(单选题)Kafka集群在运行期间,直接依赖于下面哪个组件?

  • A ZooKeeper
  • B HDFS
  • C Flume
  • D HBase
  • 答案:A

(单选题)以下关于ZooKeeper的关键特性,描述错误的是哪一项?

  • A 原子性:更新只能成功或者失败,没有中间状态
  • B 可靠性:一条消息被一个server接收即完成,其他server不需要再重复接收该信息
  • C 等待无关性:慢的或者失效的client不会干预快速的client的请求,使得每个client都能有效的等待
  • D 最终一致性:无论哪个server,对外展示的均是同一个视图
  • 答案:B

(单选题)以下关于ZooKeeper关键特性中的原子性说法正确的是?

  • A 一条消息被一个server接收,将极所有server接收
  • B 更新只能全部完成或失败,不会部分完成
  • C 集群中无论哪台服务器,对外展示的均是同一视图
  • D 客户端发送的更新会按照它们被发送的顺序进行应用
  • 答案:B

(单选题)可以通过以下哪个命令创建节点数据?

  • A set /node data
  • B get /node
  • C create /node
  • D 1s /node
  • 答案:C

(单选题)Spark自带的资源管理框架是?

  • A Docker
  • B YARN
  • C Mesos
  • D Standalone
  • 答案:D

(单选题)以下选项中,哪一项用于查看ClickHouse组件命令帮助?

  • A clickHouse -cat
  • B clickHouse -h
  • C clickHouse -m
  • D clickHouse -help
  • 答案:B

(单选题)以下关于ClickHouse的数据分片和数据副本的描述,错误的是哪一项?

  • A 分片之间的数据是完全相同的。
  • B ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制。
  • C 数据副本的主要目的是防止数据丢失,增加数据存储的冗余。
  • D 数据分片的主要目的是实现数据的水平切分。
  • 答案:A

(单选题)Hadoop平台中,要查看YARN服务中一个application的信息,通常需要使用什么命令?

  • A container
  • B application
  • C application -attempt
  • D jar
  • 答案:B

(单选题)对于延迟事件出现时窗口已经关闭并产出了计算结果,以下处理方法不合理的是哪一项?

  • A 将延迟事件视为错误消息并丢弃
  • B 延迟事件一定不能忽略计算
  • C 重新激活已经关闭的窗并重新计算以修正结果
  • D 将延迟事件收集起来另外处理
  • 答案:B

(单选题)某公司使用Spark做大数据分析,某次分析任务中某RDD会被重复利用,导致重复计算多次。若要避免重复计算且能够重复利用该RDD,以下哪个选项更合适?

  • A Spark计算很快,无需优化
  • B 增大任务资源,快速结束该任务
  • C 写出该RDD,需要时再重新读取
  • D RDD执行persist 操作
  • 答案:D

(单选题)以下关于Kafka特点描述不正确的是哪一项?

  • A 支持在线水平扩展
  • B 支持多级级联
  • C 高吞吐率
  • D 支持消息分区
  • 答案:B

(单选题)ElasticSearch的一个索引库默认有几个分片?

  • A 4
  • B 5
  • C 6
  • D 3
  • 答案:B

(单选题)以下关于MRS使用限制的描述,错误的是哪一项?

  • A 集群创建完成后,请勿随意删除或更改已使用的安全组。
  • B MRS集群使用的安全组请勿随意放开权限,避免被恶意访问
  • C 创建MRS集群时,不支持自动创建安全组,需要手动创建索全组
  • D IRS集群必须创建在VPC子网内。
  • 答案:C

(单选题)以下描述中,哪个不是Hive的优点?

  • A 类似SQL语法,内置大量函数
  • B 依赖于高性能的商业服务器
  • C 支持自定义存储格式和自定义函数
  • D HiveServer支持集群模式
  • 答案:B

(单选题)Hive在处理一些复杂的统计或者排序等复杂任务的时候,会调用以下哪个组件?

  • A Hadoop
  • B HBase
  • C MapReduce
  • D HDFS
  • 答案:C

(单选题)以下关于HBase二级索引的描述哪一项是正确的?

  • A 二级索引把要查找的列与rowkey关联成一个索引
  • B 此时列成新的rowkey,原rowkey成为value
  • C 二级索引查询了2次
  • D 以上全都正确
  • 答案:D

(单选题)HBase的主HMaster是如何选举的?

  • A HMaster为双主模式,不需要进行裁决
  • B 随机选取
  • C 由RegionServer进行裁决
  • D 通过ZooKeeper进行裁决
  • 答案:D

(单选题)RDD有Transfrmatin和Actin算子,下列属于Action算子的是?

  • A saveAsTextFile
  • B filter
  • C map
  • D reduceByKey
  • 答案:A

(单选题)关于DataSet,下列说法不正确的是?

  • A DataSet不需要反序列化就可执行大部分操作
  • B DataSet执行sort、filter、shuffle等操作需要进行反序列化
  • C DataSet是一个由特定域的对象组成的强类型集合
  • D DataSet与RDD高度类似,性能比RDD好
  • 答案:B

(单选题)在Kafka HA中,当Partition对应的Leader宕机时,需要从Follower中选举出新Leader,具体由以下哪个角色执行?

  • A Controller
  • B Broker
  • C Leader
  • D Follower
  • 答案:A

(单选题)下面哪一个是ElasticSearch的节点

  • A Cluster
  • B EsMaster
  • C Index
  • D EsNode
  • 答案:D

(单选题)以下关于KrbServer及LdapServer开源增强特性的描述,错误的是哪一项?

  • A 集群内服务认证
  • B 应用开发认证
  • C 跨系统互信特性
  • D 账号身份认证
  • 答案:D

(单选题)ZooKeeper客户端获取节点数据的命令,以下哪个是正确的

  • A set /node data
  • B get /node
  • C show /node
  • D ls /node
  • 答案:B

(单选题)当ZooKeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的

  • A 3
  • B 4
  • C 5
  • D 6
  • 答案:D

(单选题)以下描述哪一项不是传统数据处理的瓶颈?

  • A 流数据的实时写入
  • B 数据批量处理性能不足
  • C 海量数据的高存储成本
  • D 缺乏流式数据处理能力
  • 答案:A

多选题

(多选题)HBase中包含的一些典型的Filter有哪些?

  • A SingleColumValueFilter
  • B RowFilter
  • C KeyOnlyFilter
  • D FilterList
  • 答案:ABCD

(多选题)下列选项对 Compation 描述正确的是哪一项?

  • A Compation通过消除过期数据文件减少HFile文件数
  • B Compation通过合并文件减少HFile文件数
  • C Minor触发频率相对Major较高
  • D 有Minor和Major两种类型
  • 答案:ABCD

(多选题)ZKFC进程部署在HDFS中的以下哪些节点上?

  • A Active NameNode
  • B DataNode
  • C Standby NameNode
  • D 略
  • 答案:AC

(多选题)以下哪些属于企业级大数据的应用场景?

  • A 供应链管理
  • B 内部运营管理
  • C 客户分析
  • D 营销分析
  • 答案:ABCD

(多选题)关于华为云MRS海量数据离线分析场景描述正确的是哪几项?

  • A 利用Hive实现TB/PB级的数据分析
  • B 利用Flink实现数据采集
  • C 利用OBS实现低成本存储
  • D 通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析
  • 答案:ACD

(多选题)以下关于Hive架构中的组件功能,描述正确的是哪些选项?

  • A A.Executor负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务
  • B B.ThriftServer提供thrift接,作为JDBC的服务端,并将Hive和其他应用程序集成起来Compiler
  • C C.按照任务的依赖关系分别执行Map/Reduce任务
  • D D.Optimizer是优化器,分为逻辑优化器和物理优化器,分别对HiveQL生成的执行计划和MapReduce任务进行优化
  • 答案:BCD

(多选题)MergeTree用于高负载任务的最通用和功能最强大的表引擎,以下关于MergeTree的关键特征的描述,错误的是哪些项?

  • A 基于分区键的数据分区分块存储
  • B 不支持数据复制
  • C 不支持数据抽样
  • D 数据索引排序
  • 答案:BC

(多选题)Spark有哪些特点?

  • A A.轻
  • B B.灵
  • C C.快
  • D D.巧
  • 答案:ABCD

(多选题)下列哪些选项对HBase,读写数据的过程描述正确?

  • A 客户端读取数据不需要HMaster参与
  • B 客户端可以维护已访问过的Region位置信息加快查询
  • C 客户端读取数据需要HMaster参与
  • D 客户端不可以维护已访问过的Region位置信息加快查询
  • 答案:AB

(多选题)下列哪些选项是action算子?

  • A mapPartition
  • B reduce
  • C reduceByKey
  • D Dcollect
  • 答案:BD

(多选题)下列关于Hive基本操作命令的解释正确的是哪些项?

  • A drop table if exists T1;//删除表T1
  • B alter table T1 rename t T2;//将表T1重命名为T2
  • C create table if not exists T1 like T2;//拷贝T2表,包括表里的数据,并命名为T1
  • D remove table T1 where id=1;//删除表中符合条件“id=1”的数据。
  • 答案:AB

(多选题)ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供的功能有哪些?

  • A 帮助系统避免单点故障,建立可靠的应用程序
  • B 实现元数据持久化
  • C 提供分布式协作服务和维护配置信息
  • D 为集群提供高并发能力
  • 答案:ACD

(多选题)关于HDFS的NameNode的功能,以下描述错误的是哪些项?

  • A 维护了Block ID 到DataNode本地文件的映射关系
  • B 存储文件内容
  • C 保存文件块和DataNode之间的映射关系
  • D 用于存储元数据
  • 答案:AB

(多选题)执行HBase读数据业务,需要读取哪几部分数据?

  • A HMaster
  • B MemStore
  • C HFile
  • D HLog
  • 答案:BC

(多选题)以下哪些选项属于ClickHouse的表引擎?

  • A CollapsingMergeTree
  • B GraphiteMergeTree
  • C AggregatingMergeTree
  • D VersionedCollapsingMergeTree
  • 答案:ABCD

(多选题)某电商平台每天产生大量的交易订单数据,现在需要对这些数据中的交易金额做统计,可能会用到如下哪些组件?

  • A MapReduce
  • B MySQL
  • C Kafka
  • D Flume
  • 答案:ABCD

(多选题)Kafka中Partition对应的Leader宕机时,需要从Follower中选举出新Leader。当所有Replica都不工作时,对数据及时间要求不高的情况下以下哪些方案可行?

  • A 选择第一个活过来的Replica (不一定是 ISR 成员) 作为 Leader
  • B 重启Kafka集群
  • C 等待ISR中的任一个Replica活过来,并选它作为Leader
  • D 在配置中增加Replica副本数量
  • 答案:ABC

(多选题)数据操纵语言DML是包括以下哪些字句?

  • A 查找:SELECT
  • B 插入: INSERT
  • C 更新:UPDATE
  • D 删除: DELETE
  • 答案:ABCD

(多选题)以下关于HBase中HMaster的功能描述哪些是正确的?

  • A Region负载均衡,Region分裂以及分裂后的Region分配
  • B 负责建表/修改表/删除表
  • C RegionServer失效后的Region迁移
  • D 负责RegionServer的负载均衡
  • 答案:ABCD

(多选题)Spark框架包括哪些模块?

  • A Spark SQL
  • B Spark MLlib
  • C Spark Streaming
  • D Spark GraphX
  • 答案:ABCD

(多选题)以下关于Flink容错机制描述错误的有哪些?

  • A Savepoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复
  • B Checkpoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复
  • C Checkpoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复
  • D Savepoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复
  • 答案:AC

(多选题)Structured Streaming在OutPut阶段可以定义不同的数据写入方式,包括下列哪些方式?

  • A Complete Mode
  • B Append Mode
  • C General Mode
  • D Update Mode
  • 答案:ABD

(多选题)Spark与MapReduce进行比较,下列说法正确的是哪几项?

  • A Spark任务的中间结果只能存储在内存
  • B Spark任务中shuffle不是必须的过程
  • C Spark任务中shuffle是必须的过程
  • D Spark可以缓存中间结果在内存降低磁盘IO
  • 答案:BD

(多选题)Kafka分布式消息传递基于可靠的消息队列,包含以下哪两种主要的消息传递模式?

  • A 分发传递模式
  • B 轮询传递模式
  • C 点对点传递模式
  • D 发布订阅模式
  • 答案:CD

(多选题)ElasticSearch支持以下哪些访问接口?

  • A A.PUT
  • B B.POST
  • C C.DELETE
  • D D.GET
  • 答案:ABCD

(多选题)以下关于传统数据入湖面临的挑战的描述,正确的是哪些项?

  • A 开发难
  • B 成本高
  • C 时效差
  • D 资源利用率低
  • 答案:ABCD

(多选题)MRS在基于Apache Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。以下关于MRS平台的描述,正确的是哪些项?

  • A MRS支持自动处理网络故障,自动恢复受影响的业务。
  • B 在系统进行扩容、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。
  • C MRS对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据。
  • D MRS支持将Manager、HBase上的数据自动备份到第三方服务器。
  • 答案:ABC

(多选题)关于HDFS命名空间管理,以下选项描述正确的是哪几项?

  • A 对文件系统命名空间或其属性的任何更改由NameNode和DataNode共同记录
  • B NameNode维护文件系统命名空间
  • C HDFS的命名空间包含目录、文件和块
  • D 用户可以像使用普通文件系统一样,创建、删除、转移目录和文件
  • 答案:BCD

(多选题)数据节点是HDFS的工作节点,以下描述哪些是其功能?

  • A 根据客户端或者是名称节点的调度来进行数据的存储和检索
  • B 向名称节点定期发送自己所存储的块的列表。
  • C 负责数据的存储和读取
  • D 记录了所有针对文件的创建、删除、 重命名等操作
  • 答案:ABC

(多选题)下图展示了HDFS的标签存储策略,观察下图,HBase的数据会被存储到哪些数据节点上?

  • A DataNode B
  • B DataNode E
  • C DataNode C
  • D DataNode A
  • 答案:AD

(多选题)以下哪些选项属于数据治理模块域?

  • A 数据集成
  • B 数据服务
  • C 数据开发
  • D 主数据管理
  • 答案:ABCD

(多选题)以下哪些选项属于数据治理的价值?

  • A 提升业务处理效率
  • B 解决数据安全问题
  • C 降低业务运营成本
  • D 代替管理决策
  • 答案:ABC

判断题

(判断题)ZooKeeper支持对多个ClickHouseServer进行负载均衡,提高应用接入的高可靠性

  • A 正确
  • B 错误
  • 答案:A

(判断题)Tez是一个支持有向无环图的分布式计算框架,Hive使用Tez引擎进行数据分析时,会将用户提交的HQL语句解析成相应的Tez任务并提交Tez行

  • A 正确
  • B 错误
  • 答案:A

(判断题)Distributed表引擎本身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据到集群中的各个节点,分布式表需要和其他本地数据表一起协同工作

  • A 正确
  • B 错误
  • 答案:A

(判断题)生产环境中任何一个MapRedce任务Shuffle都是不可避免的

  • A 正确
  • B 错误
  • 答案:B

(判断题)分布式表的表结构尽量和本地表的结构一致。如果不一致,在在建表时不会报错,但在查询或者插入时可能会抛出异常

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理

  • A 正确
  • B 错误
  • 答案:A

(判断题)ClickHuse完全使用SQL作为查询语言,提供了标准协议的SQL查询接口

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flume支持将多个Flume级联起来,同时级联节点内部支持数据复制

  • A 正确
  • B 错误
  • 答案:A

(判断题)Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规漠数据的机制

  • A 正确
  • B 错误
  • 答案:A

(判断题)HBase中penscanner的过程,会创建两种不同的Scanner来读取H-File和 MemStore的数据。HFile对应的Scanner为StoreFileScanner;MemStore对应的Scanner为MemStoreScanner。

  • A 正确
  • B 错误
  • 答案:A

(判断题)ApplicationMaster 采用轮询的方式通过RPC 协议向ResourceManager 申请和领取资源

  • A 正确
  • B 错误
  • 答案:A

(判断题)Hadoop系统中,如果HDFS文件系统的备份因子是3,,那么MapReduce每次运行的task都要从3个有副本的机器上传输需要处理的文件段.

  • A 正确
  • B 错误
  • 答案:B

(判断题)Resurceanager采用高可用方案,当Active ResourceManager发现故障时,只能通过内置的ZooKeeper来启动Standby的ResourceManager,将其状态切换为Active。

  • A 正确
  • B 错误
  • 答案:B

(判断题)Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更高

  • A 正确
  • B 错误
  • 答案:B

(判断题)在点对点消息系统中,可由一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Flume是一种分布式,高可靠且高可用的服务,用于有效地收集、聚合和移动大量日志数据.

  • A 正确
  • B 错误
  • 答案:A

(判断题)数据质量监控DQC(Data Quality ntr1)模块是对数据库里的数据质量进行质量管理的工具,可以从完整性、有效性、及时性、一致性准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。

  • A 正确
  • B 错误
  • 答案:A

(判断题)在DataArts Studio平台中,支持自定务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。

  • A 正确
  • B 错误
  • 答案:A

(判断题)大数据体量的不断增加,对数据存储理安全性要求越来越高,对数据的多副本与容灾机制也提出更高的要求。

  • A 正确
  • B 错误
  • 答案:A

(判断题)Apache Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行粗粒度的数据访问控制。

  • A 正确
  • B 错误
  • 答案:B

填空题

(填空题)Hive架构中,( )组件负责对表,列和Partition等的元数据进行读写及更新操作

  • 答案:Metastore

(填空题)HBase通过( )快速判断用户数据不存在

  • 答案:BloomFilter

(填空题)Hbase开启了预写日志之后,在写入数据时率先写入____再写入MemStore

  • 答案:HLog

(填空题)某公司使用Yarn的capacity调度器管理集群资源,现设置某一队列用户最低资源保障百分比为20%,该队列最多可允许____用户提交任务

  • 答案:5

(填空题)Spark架构中,( )是核心模块

  • 答案:SparkCore

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Back to top