第1章 大数据技术概述

第1章大数据技术概述单元测验

1、单选题:
‌大数据计算模式有以下四种,对电子商务网站购物平台数据的实时分析处理过程属于哪一种?‎
选项:
A: 批处理计算
B: 流计算
C: 图计算
D: 查询分析计算
答案: 【 流计算

2、单选题:
​大数据技术及其代表性的软件种类很多,不同的技术有其不同应用场景,都对应着不同的大数据计算模式,请问软件产品Pregel主要应用于以下哪种计算模式?​
选项:
A: 批处理计算
B: 流计算
C: 图计算
D: 查询分析计算
答案: 【 图计算

3、单选题:
‍经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经包含多个子项目,其中YARN的主要功能是?‎
选项:
A: 分布式并行编程模型
B: 数据仓库工具
C: 负责集群资源调度管理的组件
D: 分布式海量日志采集、聚合和传输系统
答案: 【 负责集群资源调度管理的组件

4、单选题:
‎Hadoop生态系统中用于构建数据仓库并允许用户输入SQL语句进行查询的功能组件是?‍
选项:
A: Spark
B: Pregel
C: Flume
D: Hive
答案: 【 Hive

5、单选题:
‏MapReduce的一个基本设计思想是?‏
选项:
A: 计算向数据靠拢
B: 数据向计算靠拢
C: 提高数据的串行计算速度
D: 提高数据的冗余度
答案: 【 计算向数据靠拢

6、单选题:
​Hadoop的生态系统组件之一Sqoop的功能是?‌
选项:
A: 提供高可靠性、高可用、分布式的海量日志采集
B: 用来存储非结构化和半结构化的松散数据
C: 负责集群资源调度管理的组件
D: 用来在Hadoop和关系数据库之间的交换数据,改进数据的互操作性
答案: 【 用来在Hadoop和关系数据库之间的交换数据,改进数据的互操作性

7、单选题:
‎以下哪一项不是Hadoop的缺点?‌
选项:
A: 计算表达能力有限
B: 数据文件被分布存储到多台机器上
C: 计算延迟高
D: 磁盘I/O开销大
答案: 【 数据文件被分布存储到多台机器上

8、单选题:
​网络中很多数据是以图的形式呈现的,比如社交网络、交通事故,现场证据采集等,为了解决大型图的分布式计算问题,最适合采用以下哪种计算框架:‌
选项:
A: Spark Core
B: Dremel
C: Pregel
D: Storm
答案: 【 Pregel

9、单选题:
‏用户在使用HDFS时,仍然可以像普通文件系统那样用文件名去访问文件,以下哪个选项是正确的访问方式?‎
选项:
A: 把文件名发送给名称节点,根据文件名直接在名称节点上获取数据
B: 把文件名发送给数据节点,根据文件名直接在数据节点上获取数据
C: 把文件名发送给名称节点,根据文件名在名称节点上找到数据块的实际存储信息,客户端再到数据节点上获取数据
D: 以上说法都不对
答案: 【 把文件名发送给名称节点,根据文件名在名称节点上找到数据块的实际存储信息,客户端再到数据节点上获取数据

10、多选题:
‎大数据处理的基本流程有以下哪四个步骤?‏
选项:
A: 数据采集
B: 存储管理
C: 处理分析
D: 结果呈现
E: 数据安全和隐私保护
答案: 【 数据采集;
存储管理;
处理分析;
结果呈现

11、多选题:
​目前学术界和业界比较认可的关于大数据的四个特点是?‏
选项:
A: 数据量大
B: 数据类型多
C: 处理速度快
D: 数据可重复使用
E: 价值密度低
答案: 【 数据量大;
数据类型多;
处理速度快;
价值密度低

12、多选题:
‍Hadoop两大核心组成部分是什么?‏
选项:
A: 分布式文件系统HDFS
B: 分布式协作服务Zookeeper
C: 资源调度管理框架YARN
D: 分布式计算框架MapReduce
答案: 【 分布式文件系统HDFS;
分布式计算框架MapReduce

13、多选题:
‍与Hadoop相比,Spark主要有以下哪些优点?‍
选项:
A: 提供多种数据集操作类型而不仅限于MapReduce
B: 数据集中式计算更加高效
C: 提供了内存计算,带来了更高的迭代运算效率
D: 基于DAG的任务调度执行机制
答案: 【 提供多种数据集操作类型而不仅限于MapReduce;
提供了内存计算,带来了更高的迭代运算效率;
基于DAG的任务调度执行机制

14、多选题:
‎YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上,具有哪些优点:‍
选项:
A: 计算资源按需伸缩
B: 不同负载应用混搭,集群利用率高
C: 共享底层存储,避免数据跨集群迁移
D: 大大降低了运维成本
答案: 【 计算资源按需伸缩;
不同负载应用混搭,集群利用率高;
共享底层存储,避免数据跨集群迁移;
大大降低了运维成本

15、多选题:
‍关于Hadoop生态系统中HBase与其它部分的关系,以下说法正确的有:‎
选项:
A: HBase利用MapReduce来处理HBase中的海量数据,实现高性能计算
B: 利用Zookeeper作为协同服务,实现稳定服务和失败恢复
C: 使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力
D: 利用Pig和Hive为HBase提供了高层语言支持
E: 使用Sqoop为HBase提供了高效便捷的RDBMS数据导入功能
答案: 【 HBase利用MapReduce来处理HBase中的海量数据,实现高性能计算;
利用Zookeeper作为协同服务,实现稳定服务和失败恢复;
使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力;
利用Pig和Hive为HBase提供了高层语言支持;
使用Sqoop为HBase提供了高效便捷的RDBMS数据导入功能

16、多选题:
​Spark的设计遵循“一个软件栈满足不同

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注