大数据HCIA 01
大数据HCIA 01
单选题
(单选题)5:Hive通过JDBC连接返回查询结果
- A 21345
- B 24315
- C 24135
- D 21435
- 答案:B
(单选题)HBase表设计中,列族和RowKey是 表设计的重要内容。下列哪个选项不适合做RowKey?
- A 用户ID
- B 用户名
- C 身份证号
- D 手机号
- 答案:B
(单选题)HBase中数据存储的文件格式是什么?
- A HLog
- B Sequencelile
- C TextFile
- D HFile
- 答案:D
(单选题)关于HDFS数据完整性保障,以下哪个机制是错误的?
- A 快照机制实现了文件系统常见的快照机制,保证数据误操作时,能及时恢复
- B 采用日志机制操作元数据,同时元数据存放在主备NameNode上
- C 节点性能较高的DataNode会存放更多的数据
- D DataNode向NameNode周期上报失败任务,NameNode发起副本重建动作以恢复丢失副本
- 答案:C
(单选题)HBase要实现数十亿行数百万列的存储规模,需要以下哪个选项支持?
- A Redis
- B ElasticSearch
- C Kafka
- D HDFS
- 答案:D
(单选题)Hadoop中,如果将yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent设置为50,下面说法错误的是?
- A 一个用户提交任务,可以使用QueueA的100%的资源。
- B QueueA中的每个用户最多只能获得50%的资源。
- C QueueA中必须保障每个用户至少得到50%的资源。
- D 如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。
- 答案:B
(单选题)在ClickHouse中创建数据表时,指定以下哪一个表引擎会导致重新启动服务器时表中的数据消失,表变为空?
- A MySQL
- B Kafka
- C TinyLog
- D Memory
- 答案:D
(单选题)在Hive数据存储模型中,分区和桶的关系描述错误的是哪一项?
- A 分区下可再有分区或者桶
- B 每个桶是一个目录
- C 建表时指定桶个数,桶内可排序。
- D 分区数量不固定
- 答案:B
(单选题)Flink程序由Source、Transformatin和Sink三部分组成,以下关于这三部分描述错误的是哪一项?
- A Sink负责最终数据的输出,支持HDFS、Kafka和文本输出等
- B 在各部分之间流转的数据会被封装成一个个Event
- C Source主要负责数据的读取,支持HDFS、Kafka、HBase和文本等
- D Transformatin主要负责对数据的转换操作
- 答案:B
(单选题)某公司使用用户ID做HBase的Rowkey,同时在列中还存在phone列,该列存储了用户的手机号码。该公司要求能够通过phone快速查询到用户ID,下列哪个方法比较合适?
- A Get与valueFiller同时使用
- B 创建二级索引
- C Scan与valueFillter同时使用
- D 使用Fillter
- 答案:B
(单选题)YARN中设置队列QueueA的最大使用资源量,需要配置哪个参数?
- A yarn.scheduler.capacity.root.Queueminimum-user-limit-percent
- B yarn.scheduler.capacity.root.Queuemaximum-capacity
- C yarn.scheduler.capacity.root.Queueuser-1imit-factor
- D yarn.scheduler.capacity.root.Queuestate
- 答案:B
(单选题)某公司使用HBase存储业务数据,由于数据规模较大,所以数据存储在HBase后会导致频繁的Region分裂,为了避免这种情况,下列哪个方法比较适用?
- A 增加Region大小
- B 增大MemStore大小
- C 对该表预分区
- D 提升RegionServer性能
- 答案:C
(单选题)HBase命令中下列哪个选项性能最差?
- A get
- B put
- C scan
- D list
- 答案:C
(单选题)Kafka集群在运行期间,直接依赖于下面哪个组件?
- A ZooKeeper
- B HDFS
- C Flume
- D HBase
- 答案:A
(单选题)以下关于ZooKeeper的关键特性,描述错误的是哪一项?
- A 原子性:更新只能成功或者失败,没有中间状态
- B 可靠性:一条消息被一个server接收即完成,其他server不需要再重复接收该信息
- C 等待无关性:慢的或者失效的client不会干预快速的client的请求,使得每个client都能有效的等待
- D 最终一致性:无论哪个server,对外展示的均是同一个视图
- 答案:B
(单选题)以下关于ZooKeeper关键特性中的原子性说法正确的是?
- A 一条消息被一个server接收,将极所有server接收
- B 更新只能全部完成或失败,不会部分完成
- C 集群中无论哪台服务器,对外展示的均是同一视图
- D 客户端发送的更新会按照它们被发送的顺序进行应用
- 答案:B
(单选题)可以通过以下哪个命令创建节点数据?
- A set /node data
- B get /node
- C create /node
- D 1s /node
- 答案:C
(单选题)Spark自带的资源管理框架是?
- A Docker
- B YARN
- C Mesos
- D Standalone
- 答案:D
(单选题)以下选项中,哪一项用于查看ClickHouse组件命令帮助?
- A clickHouse -cat
- B clickHouse -h
- C clickHouse -m
- D clickHouse -help
- 答案:B
(单选题)以下关于ClickHouse的数据分片和数据副本的描述,错误的是哪一项?
- A 分片之间的数据是完全相同的。
- B ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制。
- C 数据副本的主要目的是防止数据丢失,增加数据存储的冗余。
- D 数据分片的主要目的是实现数据的水平切分。
- 答案:A
(单选题)Hadoop平台中,要查看YARN服务中一个application的信息,通常需要使用什么命令?
- A container
- B application
- C application -attempt
- D jar
- 答案:B
(单选题)对于延迟事件出现时窗口已经关闭并产出了计算结果,以下处理方法不合理的是哪一项?
- A 将延迟事件视为错误消息并丢弃
- B 延迟事件一定不能忽略计算
- C 重新激活已经关闭的窗并重新计算以修正结果
- D 将延迟事件收集起来另外处理
- 答案:B
(单选题)某公司使用Spark做大数据分析,某次分析任务中某RDD会被重复利用,导致重复计算多次。若要避免重复计算且能够重复利用该RDD,以下哪个选项更合适?
- A Spark计算很快,无需优化
- B 增大任务资源,快速结束该任务
- C 写出该RDD,需要时再重新读取
- D RDD执行persist 操作
- 答案:D
(单选题)以下关于Kafka特点描述不正确的是哪一项?
- A 支持在线水平扩展
- B 支持多级级联
- C 高吞吐率
- D 支持消息分区
- 答案:B
(单选题)ElasticSearch的一个索引库默认有几个分片?
- A 4
- B 5
- C 6
- D 3
- 答案:B
(单选题)以下关于MRS使用限制的描述,错误的是哪一项?
- A 集群创建完成后,请勿随意删除或更改已使用的安全组。
- B MRS集群使用的安全组请勿随意放开权限,避免被恶意访问
- C 创建MRS集群时,不支持自动创建安全组,需要手动创建索全组
- D IRS集群必须创建在VPC子网内。
- 答案:C
(单选题)以下描述中,哪个不是Hive的优点?
- A 类似SQL语法,内置大量函数
- B 依赖于高性能的商业服务器
- C 支持自定义存储格式和自定义函数
- D HiveServer支持集群模式
- 答案:B
(单选题)Hive在处理一些复杂的统计或者排序等复杂任务的时候,会调用以下哪个组件?
- A Hadoop
- B HBase
- C MapReduce
- D HDFS
- 答案:C
(单选题)以下关于HBase二级索引的描述哪一项是正确的?
- A 二级索引把要查找的列与rowkey关联成一个索引
- B 此时列成新的rowkey,原rowkey成为value
- C 二级索引查询了2次
- D 以上全都正确
- 答案:D
(单选题)HBase的主HMaster是如何选举的?
- A HMaster为双主模式,不需要进行裁决
- B 随机选取
- C 由RegionServer进行裁决
- D 通过ZooKeeper进行裁决
- 答案:D
(单选题)RDD有Transfrmatin和Actin算子,下列属于Action算子的是?
- A saveAsTextFile
- B filter
- C map
- D reduceByKey
- 答案:A
(单选题)关于DataSet,下列说法不正确的是?
- A DataSet不需要反序列化就可执行大部分操作
- B DataSet执行sort、filter、shuffle等操作需要进行反序列化
- C DataSet是一个由特定域的对象组成的强类型集合
- D DataSet与RDD高度类似,性能比RDD好
- 答案:B
(单选题)在Kafka HA中,当Partition对应的Leader宕机时,需要从Follower中选举出新Leader,具体由以下哪个角色执行?
- A Controller
- B Broker
- C Leader
- D Follower
- 答案:A
(单选题)下面哪一个是ElasticSearch的节点
- A Cluster
- B EsMaster
- C Index
- D EsNode
- 答案:D
(单选题)以下关于KrbServer及LdapServer开源增强特性的描述,错误的是哪一项?
- A 集群内服务认证
- B 应用开发认证
- C 跨系统互信特性
- D 账号身份认证
- 答案:D
(单选题)ZooKeeper客户端获取节点数据的命令,以下哪个是正确的
- A set /node data
- B get /node
- C show /node
- D ls /node
- 答案:B
(单选题)当ZooKeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的
- A 3
- B 4
- C 5
- D 6
- 答案:D
(单选题)以下描述哪一项不是传统数据处理的瓶颈?
- A 流数据的实时写入
- B 数据批量处理性能不足
- C 海量数据的高存储成本
- D 缺乏流式数据处理能力
- 答案:A
多选题
(多选题)HBase中包含的一些典型的Filter有哪些?
- A SingleColumValueFilter
- B RowFilter
- C KeyOnlyFilter
- D FilterList
- 答案:ABCD
(多选题)下列选项对 Compation 描述正确的是哪一项?
- A Compation通过消除过期数据文件减少HFile文件数
- B Compation通过合并文件减少HFile文件数
- C Minor触发频率相对Major较高
- D 有Minor和Major两种类型
- 答案:ABCD
(多选题)ZKFC进程部署在HDFS中的以下哪些节点上?
- A Active NameNode
- B DataNode
- C Standby NameNode
- D 略
- 答案:AC
(多选题)以下哪些属于企业级大数据的应用场景?
- A 供应链管理
- B 内部运营管理
- C 客户分析
- D 营销分析
- 答案:ABCD
(多选题)关于华为云MRS海量数据离线分析场景描述正确的是哪几项?
- A 利用Hive实现TB/PB级的数据分析
- B 利用Flink实现数据采集
- C 利用OBS实现低成本存储
- D 通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析
- 答案:ACD
(多选题)以下关于Hive架构中的组件功能,描述正确的是哪些选项?
- A A.Executor负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务
- B B.ThriftServer提供thrift接,作为JDBC的服务端,并将Hive和其他应用程序集成起来Compiler
- C C.按照任务的依赖关系分别执行Map/Reduce任务
- D D.Optimizer是优化器,分为逻辑优化器和物理优化器,分别对HiveQL生成的执行计划和MapReduce任务进行优化
- 答案:BCD
(多选题)MergeTree用于高负载任务的最通用和功能最强大的表引擎,以下关于MergeTree的关键特征的描述,错误的是哪些项?
- A 基于分区键的数据分区分块存储
- B 不支持数据复制
- C 不支持数据抽样
- D 数据索引排序
- 答案:BC
(多选题)Spark有哪些特点?
- A A.轻
- B B.灵
- C C.快
- D D.巧
- 答案:ABCD
(多选题)下列哪些选项对HBase,读写数据的过程描述正确?
- A 客户端读取数据不需要HMaster参与
- B 客户端可以维护已访问过的Region位置信息加快查询
- C 客户端读取数据需要HMaster参与
- D 客户端不可以维护已访问过的Region位置信息加快查询
- 答案:AB
(多选题)下列哪些选项是action算子?
- A mapPartition
- B reduce
- C reduceByKey
- D Dcollect
- 答案:BD
(多选题)下列关于Hive基本操作命令的解释正确的是哪些项?
- A drop table if exists T1;//删除表T1
- B alter table T1 rename t T2;//将表T1重命名为T2
- C create table if not exists T1 like T2;//拷贝T2表,包括表里的数据,并命名为T1
- D remove table T1 where id=1;//删除表中符合条件“id=1”的数据。
- 答案:AB
(多选题)ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供的功能有哪些?
- A 帮助系统避免单点故障,建立可靠的应用程序
- B 实现元数据持久化
- C 提供分布式协作服务和维护配置信息
- D 为集群提供高并发能力
- 答案:ACD
(多选题)关于HDFS的NameNode的功能,以下描述错误的是哪些项?
- A 维护了Block ID 到DataNode本地文件的映射关系
- B 存储文件内容
- C 保存文件块和DataNode之间的映射关系
- D 用于存储元数据
- 答案:AB
(多选题)执行HBase读数据业务,需要读取哪几部分数据?
- A HMaster
- B MemStore
- C HFile
- D HLog
- 答案:BC
(多选题)以下哪些选项属于ClickHouse的表引擎?
- A CollapsingMergeTree
- B GraphiteMergeTree
- C AggregatingMergeTree
- D VersionedCollapsingMergeTree
- 答案:ABCD
(多选题)某电商平台每天产生大量的交易订单数据,现在需要对这些数据中的交易金额做统计,可能会用到如下哪些组件?
- A MapReduce
- B MySQL
- C Kafka
- D Flume
- 答案:ABCD
(多选题)Kafka中Partition对应的Leader宕机时,需要从Follower中选举出新Leader。当所有Replica都不工作时,对数据及时间要求不高的情况下以下哪些方案可行?
- A 选择第一个活过来的Replica (不一定是 ISR 成员) 作为 Leader
- B 重启Kafka集群
- C 等待ISR中的任一个Replica活过来,并选它作为Leader
- D 在配置中增加Replica副本数量
- 答案:ABC
(多选题)数据操纵语言DML是包括以下哪些字句?
- A 查找:SELECT
- B 插入: INSERT
- C 更新:UPDATE
- D 删除: DELETE
- 答案:ABCD
(多选题)以下关于HBase中HMaster的功能描述哪些是正确的?
- A Region负载均衡,Region分裂以及分裂后的Region分配
- B 负责建表/修改表/删除表
- C RegionServer失效后的Region迁移
- D 负责RegionServer的负载均衡
- 答案:ABCD
(多选题)Spark框架包括哪些模块?
- A Spark SQL
- B Spark MLlib
- C Spark Streaming
- D Spark GraphX
- 答案:ABCD
(多选题)以下关于Flink容错机制描述错误的有哪些?
- A Savepoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复
- B Checkpoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复
- C Checkpoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复
- D Savepoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复
- 答案:AC
(多选题)Structured Streaming在OutPut阶段可以定义不同的数据写入方式,包括下列哪些方式?
- A Complete Mode
- B Append Mode
- C General Mode
- D Update Mode
- 答案:ABD
(多选题)Spark与MapReduce进行比较,下列说法正确的是哪几项?
- A Spark任务的中间结果只能存储在内存
- B Spark任务中shuffle不是必须的过程
- C Spark任务中shuffle是必须的过程
- D Spark可以缓存中间结果在内存降低磁盘IO
- 答案:BD
(多选题)Kafka分布式消息传递基于可靠的消息队列,包含以下哪两种主要的消息传递模式?
- A 分发传递模式
- B 轮询传递模式
- C 点对点传递模式
- D 发布订阅模式
- 答案:CD
(多选题)ElasticSearch支持以下哪些访问接口?
- A A.PUT
- B B.POST
- C C.DELETE
- D D.GET
- 答案:ABCD
(多选题)以下关于传统数据入湖面临的挑战的描述,正确的是哪些项?
- A 开发难
- B 成本高
- C 时效差
- D 资源利用率低
- 答案:ABCD
(多选题)MRS在基于Apache Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。以下关于MRS平台的描述,正确的是哪些项?
- A MRS支持自动处理网络故障,自动恢复受影响的业务。
- B 在系统进行扩容、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。
- C MRS对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据。
- D MRS支持将Manager、HBase上的数据自动备份到第三方服务器。
- 答案:ABC
(多选题)关于HDFS命名空间管理,以下选项描述正确的是哪几项?
- A 对文件系统命名空间或其属性的任何更改由NameNode和DataNode共同记录
- B NameNode维护文件系统命名空间
- C HDFS的命名空间包含目录、文件和块
- D 用户可以像使用普通文件系统一样,创建、删除、转移目录和文件
- 答案:BCD
(多选题)数据节点是HDFS的工作节点,以下描述哪些是其功能?
- A 根据客户端或者是名称节点的调度来进行数据的存储和检索
- B 向名称节点定期发送自己所存储的块的列表。
- C 负责数据的存储和读取
- D 记录了所有针对文件的创建、删除、 重命名等操作
- 答案:ABC
(多选题)下图展示了HDFS的标签存储策略,观察下图,HBase的数据会被存储到哪些数据节点上?
- A DataNode B
- B DataNode E
- C DataNode C
- D DataNode A
- 答案:AD
(多选题)以下哪些选项属于数据治理模块域?
- A 数据集成
- B 数据服务
- C 数据开发
- D 主数据管理
- 答案:ABCD
(多选题)以下哪些选项属于数据治理的价值?
- A 提升业务处理效率
- B 解决数据安全问题
- C 降低业务运营成本
- D 代替管理决策
- 答案:ABC
判断题
(判断题)ZooKeeper支持对多个ClickHouseServer进行负载均衡,提高应用接入的高可靠性
- A 正确
- B 错误
- 答案:A
(判断题)Tez是一个支持有向无环图的分布式计算框架,Hive使用Tez引擎进行数据分析时,会将用户提交的HQL语句解析成相应的Tez任务并提交Tez行
- A 正确
- B 错误
- 答案:A
(判断题)Distributed表引擎本身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据到集群中的各个节点,分布式表需要和其他本地数据表一起协同工作
- A 正确
- B 错误
- 答案:A
(判断题)生产环境中任何一个MapRedce任务Shuffle都是不可避免的
- A 正确
- B 错误
- 答案:B
(判断题)分布式表的表结构尽量和本地表的结构一致。如果不一致,在在建表时不会报错,但在查询或者插入时可能会抛出异常
- A 正确
- B 错误
- 答案:A
(判断题)Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理
- A 正确
- B 错误
- 答案:A
(判断题)ClickHuse完全使用SQL作为查询语言,提供了标准协议的SQL查询接口
- A 正确
- B 错误
- 答案:A
(判断题)Flume支持将多个Flume级联起来,同时级联节点内部支持数据复制
- A 正确
- B 错误
- 答案:A
(判断题)Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规漠数据的机制
- A 正确
- B 错误
- 答案:A
(判断题)HBase中penscanner的过程,会创建两种不同的Scanner来读取H-File和 MemStore的数据。HFile对应的Scanner为StoreFileScanner;MemStore对应的Scanner为MemStoreScanner。
- A 正确
- B 错误
- 答案:A
(判断题)ApplicationMaster 采用轮询的方式通过RPC 协议向ResourceManager 申请和领取资源
- A 正确
- B 错误
- 答案:A
(判断题)Hadoop系统中,如果HDFS文件系统的备份因子是3,,那么MapReduce每次运行的task都要从3个有副本的机器上传输需要处理的文件段.
- A 正确
- B 错误
- 答案:B
(判断题)Resurceanager采用高可用方案,当Active ResourceManager发现故障时,只能通过内置的ZooKeeper来启动Standby的ResourceManager,将其状态切换为Active。
- A 正确
- B 错误
- 答案:B
(判断题)Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更高
- A 正确
- B 错误
- 答案:B
(判断题)在点对点消息系统中,可由一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次。
- A 正确
- B 错误
- 答案:A
(判断题)Flume是一种分布式,高可靠且高可用的服务,用于有效地收集、聚合和移动大量日志数据.
- A 正确
- B 错误
- 答案:A
(判断题)数据质量监控DQC(Data Quality ntr1)模块是对数据库里的数据质量进行质量管理的工具,可以从完整性、有效性、及时性、一致性准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。
- A 正确
- B 错误
- 答案:A
(判断题)在DataArts Studio平台中,支持自定务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。
- A 正确
- B 错误
- 答案:A
(判断题)大数据体量的不断增加,对数据存储理安全性要求越来越高,对数据的多副本与容灾机制也提出更高的要求。
- A 正确
- B 错误
- 答案:A
(判断题)Apache Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行粗粒度的数据访问控制。
- A 正确
- B 错误
- 答案:B
填空题
(填空题)Hive架构中,( )组件负责对表,列和Partition等的元数据进行读写及更新操作
- 答案:Metastore
(填空题)HBase通过( )快速判断用户数据不存在
- 答案:BloomFilter
(填空题)Hbase开启了预写日志之后,在写入数据时率先写入____再写入MemStore
- 答案:HLog
(填空题)某公司使用Yarn的capacity调度器管理集群资源,现设置某一队列用户最低资源保障百分比为20%,该队列最多可允许____用户提交任务
- 答案:5
(填空题)Spark架构中,( )是核心模块
- 答案:SparkCore