第一章 单元测试

1、多选题:
数据挖掘就是从大量的、( )数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。( )。
选项:
A:有噪声的
B:模糊的
C:随机的
D:不完全的
答案: 【有噪声的;模糊的;随机的;不完全的

2、多选题:
互联网本身具有( )的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破。( )。
选项:
A:共享
B:数字化
C:快速性
D:互动性
答案: 【数字化;互动性

3、多选题:
KDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征:( )。
选项:
A:最终用户专门知识缺乏
B:数据利用非常不足
C:在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要
D:海量数据集
答案: 【最终用户专门知识缺乏;数据利用非常不足;在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要;海量数据集

4、多选题:
大数据的特征有( )。
选项:
A:Value
B:Velocity
C:Variety
D:Volume
答案: 【Value;Velocity;Variety;Volume

5、多选题:
从宏观上看,数据挖掘过程主要由三个部分组成,即( )。
选项:
A:结果的解释评估
B:数据挖掘
C:数据收集
D:数据整理
答案: 【结果的解释评估;数据挖掘;数据整理

第二章 单元测试

1、多选题:
不完整数据的成因有( )。
选项:
A:数据收集的时候就缺乏合适的值
B:人为/硬件/软件问题
C:其他
D:数据收集时和数据分析时的不同考虑因素
答案: 【数据收集的时候就缺乏合适的值;人为/硬件/软件问题;数据收集时和数据分析时的不同考虑因素

2、多选题:
处理空缺值的主要方法有( )。
选项:
A:使用属性的平均值填补空缺值。
B:使用与给定元组属同一类的所有样本的平均值。
C:使用一个全局常量填补空缺值
D:忽略元组
答案: 【使用属性的平均值填补空缺值。;使用与给定元组属同一类的所有样本的平均值。;使用一个全局常量填补空缺值;忽略元组

3、多选题:
给定一个数值属性,怎样才能平滑数据,去掉噪声?( )。
选项:
A:分箱(binning)
B:聚类
C:回归
D:计算机和人工检查结合
答案: 【分箱(binning);聚类;回归;计算机和人工检查结合

4、多选题:
数据集成时需解决的三个基本问题为( )。
选项:
A:冗余问题
B:数据集成过程中数值冲突的检测与处理
C:降维
D:模式集成的过程中涉及到的实体识别问题
答案: 【冗余问题;数据集成过程中数值冲突的检测与处理;模式集成的过程中涉及到的实体识别问题

5、多选题:
常用的数据转换方法有( )。
选项:
A:聚集
B:平滑
C:数据概化
D:属性构造
答案: 【聚集 ;平滑 ;数据概化;属性构造

发表评论

电子邮件地址不会被公开。 必填项已用*标注