KNN算法

KNN算法课后测验

1、单选题:
‎下列哪个距离度量不在KNN算法中体现:(  )。‏
选项:
A: 切比雪夫距离
B: 欧氏距离
C: 余弦相似度
D: 曼哈顿距离
答案: 【 余弦相似度

2、单选题:
​下列选项中,关于KNN算法说法不正确是:(  )。​
选项:
A: 能找出与待预测样本相近的K个样本
B: 默认使用欧氏距离度量
C: 实现过程相对简单,但是可解释性不强
D: 效率很高
答案: 【 效率很高

3、单选题:
‌以下距离度量方法中,在城市道路里,要从一个十字路口开车到另外一个十字路口的距离是: (  )。‌
选项:
A: 夹角余弦
B: 切比雪夫距离
C: 曼哈顿距离
D: 欧氏距离
答案: 【 曼哈顿距离

4、单选题:
‍以下关于KD树的说法错误的是 (  )。‍
选项:
A: KD树是一种对k维空间的数据进行存储以便于快速检索的树形数据结构
B: KD树主要用于多维空间关键数据的检索
C: KD树节点与k维中垂直与超平面的那一维有关
D: 所有x值小于指定值的节点会出现在右子树
答案: 【 所有x值小于指定值的节点会出现在右子树

5、单选题:
‏利用KD树进行搜索时,正确的方式是 (  )。‌
选项:
A: 查询数据从子节点开始 
B: 若数据小于对应节点中k维度的值,则访问左节点
C: 回溯过程是为了找距离较远的点 
D: 回溯的判断过程是从上往下进行的
答案: 【 若数据小于对应节点中k维度的值,则访问左节点

6、单选题:
‎以下哪项是KNN算法的缺点?(  )‍
选项:
A: 低精度
B: 对异常值不敏感
C: 计算成本高
D: 需要的内存非常少
答案: 【 计算成本高

7、单选题:
‏关于余弦相似度,不正确的是(  )。‏
选项:
A: 余弦相似度的范围为[-1,1]
B: 余弦相似度的结果和向量的长度无关
C: 余弦相似度为-1时候,两个向量完全不相关
D: 余弦相似度为1的时候,两个向量完全相关
答案: 【 余弦相似度为-1时候,两个向量完全不相关

8、单选题:
‏KD树(K-Dimension Tree)的描述中,不正确的是(  )。‍
选项:
A: KD树是二叉树
B: KD树可以用更高的效率来对空间进行划分
C: KD树的结构非常适合寻找最近邻居和碰撞检测
D: KD树切分时,从方差小的维度开始切分
答案: 【 KD树切分时,从方差小的维度开始切分

9、单选题:
‎假设有 6 个二维数据点:D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)},第一次切分时候,切分线为( )。​
选项:
A: x=5
B: x=6
C: y=5
D: y=6
答案: 【 x=6

10、单选题:
​KNN算法在什么情况下效果较好?(  )‌
选项:
A: 样本较多但典型性不好 
B: 样本较少但典型性好
C: 样本呈团状分布
D: 样本呈链状分布
答案: 【 样本较少但典型性好

11、单选题:
‌关于KNN算法的描述,不正确的是(  )。‏
选项:
A: 可以用于分类
B: 可以用于回归
C: 距离度量的方式通常用曼哈顿距离
D: K值的选择一般选择一个较小的值
答案: 【 距离度量的方式通常用曼哈顿距离

12、单选题:
‏两个向量的长度分别为1和2,两者之间的夹角为60度,则以下选项错误的是(  )。‍
选项:
A: 余弦相似度为0.5
B: 余弦相似度为正
C: 余弦相似度没法计算,因为没给出具体坐标值
D: 余弦相似度的值与向量的长度无关,只和向量之间的夹角有关
答案: 【 余弦相似度没法计算,因为没给出具体坐标值

13、多选题:
‏影响KNN算法效果的主要因素包括(  )。​
选项:
A: K的值
B: 距离度量方式
C: 决策规则
D: 最邻近数据的距离
答案: 【 K的值;
距离度量方式;
决策规则

14、多选题:
​以下关于KNN说法正确的是 (多选)(  )。‍
选项:
A: 计算复杂度低
B: 对数据没有假设
C: 对异常值不敏感
D: 可解释性好
答案: 【 计算复杂度低;
对数据没有假设;
对异常值不敏感

15、多选题:
‍闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的,以下哪项是正确的:(  )。​
选项:
A: p取1时是曼哈顿距离
B: p取2时是欧氏距离
C: p取无穷时是切比雪夫距离
D: 闵可夫斯基空间不同于牛顿力学的平坦空间
答案: 【 p取1时是曼哈顿距离;
p取2时是欧氏距离;
p取无穷时是切比雪夫距离;
闵可夫斯基空间不同于牛顿力学的平坦空间

16、多选题:
‎KNN算法的缺点包括以下几点?(  )‏
选项:
A: 可解释性差,无法给出决策树那样的规则
B: 对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低
C: 对异常值敏感
D: 计算复杂性高;空间复杂性高,尤其是特征数非常多的时候
答案: 【 可解释性差,无法给出决策树那样的规则;
对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低;
计算复杂性高;空间复杂性高,尤其是特征数非常多的时候

17、判断题:
‏两个向量的余弦相似度越接近1,说明两者越相似。‎
选项:
A: 正确
B: 错误
答案: 【 正确

18、判断题:
‌k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于分类,但不能用于回归方法。‌
选项:
A: 正确
B: 错误
答案: 【 错误

19、判断题:
‎KNN没有显示的训练过程,它在训练阶段只是把数据保存下来,训练时间开销为0,等收到测试样本后进行处理。‏
选项:
A: 正确
B: 错误
答案: 【 正确

20、判断题:
​KNN分类的时候,对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。‏
选项:
A: 正确
B: 错误
答案: 【 正确

人工神经网络

人工神经网络课后测验

1、单选题:
‍以下关于感知器说法错误的是: (  )。‎
选项:
A: 感知器是最简单的前馈式人工神经网络
B: 感知器中的偏置只改变决策边界的位置
C: 单层感知器可以用于处理非线性学习问题
D: 可为感知器的输出值设置阈值使其用于处理分类问题
答案: 【 单层感知器可以用于处理非线性学习问题

2、单选题:
​关于BP算法特点描述错误的是 (  )。‎
选项:
A: 计算之前不需要对训练数据进行归一化
B: 输入信号顺着输入层、隐层、输出层依次传播
C: 预测误差需逆向传播,顺序是输出层、隐层、输入层
D: 各个神经元根据预测误差对权值进行调整
答案: 【 计算之前不需要对训练数据进行归一化

3、单选题:
‎关于BP算法优缺点的说法错误的是 (  )。‎
选项:
A: BP算法不能用于处理非线性分类问题
B: BP算法训练时间较长
C: BP算法容易陷入局部最小值
D: BP算法训练时候可能由于权值调整过大使得激活函数达到饱和
答案: 【 BP算法不能用于处理非线性分类问题

4、单选题:
‍关于BP算法信号前向传播的说法正确的是( )。‎
选项:
A: A. BP算法信号传播的顺序是输出层、隐层、输入层。
B: B. BP算法信号前向传播的计算量跟输入层神经元数目无关
C: C. BP算法在计算正向传播输出值时需要考虑激活函数
D: D. BP算法只有在隐层才有激活函数
答案: 【 C. BP算法在计算正向传播输出值时需要考虑激活函数

5、单选题:
‎以下关于Sigmoid的特点说法错误的是 ( )。​
选项:
A: Sigmoid函数计算量小
B: 可以将函数值的范围压缩到[0,1]
C: 函数处处连续
D: 趋向无穷的地方,函数变化很小,容易出现梯度消失的现象
答案: 【 Sigmoid函数计算量小

6、单选题:
​关于BP算法反向传播的说法正确的是( )。‏
选项:
A: BP算法反向传播的预测误差值一般由真实标签值和预测标签值的差计算得来
B: BP算法反向传播的目的是只对权值进行更新
C: BP算法反向传播进行更新时一般用到微积分的链式传播法则
D: BP算法更新量与步长关系不大
答案: 【 BP算法反向传播进行更新时一般用到微积分的链式传播法则

7、单选题:
​以下关于学习率说法错误的是()。‎
选项:
A: 学习率的选择不能太大也不能太小
B: 学习率太大会导致无法收敛
C: 学习率太小会使得算法陷入局部极小点
D: 学习率必须是固定不变的
答案: 【 学习率必须是固定不变的

8、单选题:
‍BP算法总结错误的是 ( )。​
选项:
A: 算法只要知道上一层神经元的阈值梯度,就能计算当前层神经元的阈值梯度和连接权值梯度
B: 当前层的连接权值梯度,取决于当前层神经元阈值梯度和上一层神经元输出
C: 隐层的阈值梯度只跟本层的神经元输出值有关
D: 隐层阈值梯度取决于隐层神经元输出、输出层阈值梯度和隐层与输出层的连接权值
答案: 【 隐层的阈值梯度只跟本层的神经元输出值有关

9、单选题:
‏为避免BP算法在迭代过程中出现局部极小值的问题,那么采取以下哪种方法可行( )。‎
选项:
A: 尽量减小迭代的学习率
B: 在每一轮迭代中都赋予一定的概率接受次优解,但是概率随迭代不断降低
C: 令初始值为较大的值
D: 以上做法都不可行
答案: 【 在每一轮迭代中都赋予一定的概率接受次优解,但是概率随迭代不断降低

10、单选题:
‍Minsky在上世纪60年代末指出了神经网络算法的哪种缺点,使得神经网络算法陷入低潮( )。‍
选项:
A: 早期的神经网络算法需要训练的参数太多
B: 早期的神经网络算法无法收敛
C: 早期的神经网络算法无法处理非线性学习问题
D: 早期的神经网络的收敛速度太慢
答案: 【 早期的神经网络算法无法处理非线性学习问题

11、单选题:
‌神经网络算法有时会出现过拟合的情况,那么采取以下哪些方法解决过拟合更为可行()。‏
选项:
A: 为参数选取多组初始值,分别训练,再选取一组作为最优值
B: 增大学习的步长
C: 减少训练数据集中数据的数量
D: 设置一个正则项减小模型的复杂度
答案: 【 设置一个正则项减小模型的复杂度

12、单选题:
‎以下关于极限学习机(ELM)说法错误的是 ( )。‎
选项:
A: ELM有多个隐藏层
B: ELM学习速度非常快,因为需要更新的变量数目很少
C: ELM隐藏层的权值是初始时随机赋值的,在迭代中不对其进行更新
D: ELM也分输入层、隐藏层和输出层三层
答案: 【 ELM有多个隐藏层

13、多选题:
‍隐藏层中常用的激活函数有 (多选) (  )。‍
选项:
A: Sigmoid
B: Cos
C: Tanh
D: ReLU
答案: 【 Sigmoid;
Tanh;
ReLU

14、多选题:
‌一般的多层感知器包含几种类型层次的神经元 ( )。‏
选项:
A: 输入层
B: 输出层
C: 卷积层
D: 隐藏层
答案: 【 输入层;
输出层;
隐藏层

15、多选题:
‍关于BP算法优点说法正确的是( )。​
选项:
A: BP算法能够自适应学习
B: BP算法有很强的非线性映射能力
C: BP算法反向传播采用链式法则,推导过程严谨
D: BP算法泛化能力不强
答案: 【 BP算法能够自适应学习;
BP算法有很强的非线性映射能力;
BP算法反向传播采用链式法则,推导过程严谨

16、多选题:
​关于BP算法缺点的说法正确的是()。‏
选项:
A: BP算法更新没有明确的公式,需要不断试凑,才能决定隐层节点数量
B: BP算法涉及参数数量很多,因此更新速度慢
C: BP算法迭代速度不快,即使提高学习率也无济于事
D: BP算法很容易陷入局部极小值问题
答案: 【 BP算法更新没有明确的公式,需要不断试凑,才能决定隐层节点数量;
BP算法涉及参数数量很多,因此更新速度慢;
BP算法很容易陷入局部极小值问题

17、判断题:
​BP算法“喜新厌旧”,在学习新样本后,会把旧样本逐渐遗忘。​
选项:
A: 正确
B: 错误
答案: 【 正确

18、判断题:
‌BP算法的反向传播是为了对权值进行调整。‌
选项:
A: 正确
B: 错误
答案: 【 正确

19、判断题:
‏BP算法的正向传播是为获取训练误差。‍
选项:
A: 正确
B: 错误
答案: 【 正确

20、判断题:
‍BP算法陷入局部极小值的问题可通过更换激活函数解决。​
选项:
A: 正确
B: 错误
答案: 【 错误

关联规则

关联规则课后测验

1、单选题:
​某超市研究销售记录发现买啤酒的人很大概率也会买尿布,这属于数据挖掘的哪类问题?‍
选项:
A: 关联规则发现
B: 聚类
C: 分类
D: 自然语言处理
答案: 【 关联规则发现

2、单选题:
‌以下关于关联规则说法错误的是 ()。‍
选项:
A: 关联规则反映某事物与其他事物之间的关联性
B: 购物车分析是大型商业超市用来揭示商品之间关联性的技术之一
C: 使用购物车分析的方法,一定可以提高销售额
D: 购物车分析通过找出不同产品之间的关联性为准,安放商品
答案: 【 使用购物车分析的方法,一定可以提高销售额

3、单选题:
‍数据之间的相关关系可以通过以下哪个算法直接挖掘(  )。‍
选项:
A: K-means
B: DBSCAN
C: C4.5
D: Apriori
答案: 【 Apriori

4、单选题:
‏下列关于Apriori算法说法错误的是 (  )。‍
选项:
A: 频繁项集的非空子集也是频繁项集
B: 频繁项集是支持值大于阈值的项集
C: Apriori算法运算过程中不需要找出所有的频繁项集
D: Apriori算法可由收集到的频繁项集产生强关联规则
答案: 【 Apriori算法运算过程中不需要找出所有的频繁项集

5、单选题:
‏以下关于FP-Growth算法表述不正确的有 (  )。​
选项:
A: FP-growth算法是对Apriori算法的改进
B: FP-growth算法不需要产生候选集
C: FP-growth算法将数据库压缩成一棵频繁模式树,但保留关联信息
D: FP-growth只需要一次遍历数据,大大提高了效率
答案: 【 FP-growth只需要一次遍历数据,大大提高了效率

6、单选题:
‍关于Apriori和FP-growth算法说法正确的是(  )。‍
选项:
A: Apriori比FP-growth操作更麻烦
B: FP-growth算法需要对项目进行配对,因此处理速度慢
C: FP-growth只需要一次遍历数据,扫描效率高
D: FP-growth算法在数据库较大时,不适宜共享内存
答案: 【 FP-growth算法在数据库较大时,不适宜共享内存

7、单选题:
‌某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(  )​
选项:
A: 关联规则发现
B: 聚类
C: 分类
D: 自然语言处理
答案: 【 关联规则发现

8、单选题:
‏可用作数据挖掘分析中的关联规则算法有(  )。‎
选项:
A: 决策树、逻辑回归
B: K均值法、支持向量机
C: Apriori算法、FP-Tree算法
D: K均值法、决策树
答案: 【 Apriori算法、FP-Tree算法

9、单选题:
‍关联规则的评价指标是:(  )。‏
选项:
A: 均方误差、均方根误差
B: Kappa统计、显著性检验
C: 支持度、置信度
D: 平均绝对误差、相对误差
答案: 【 支持度、置信度

10、单选题:
‍分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于(  )问题。‏
选项:
A: 关联规则挖掘
B: 分类与回归
C: 聚类分析
D: 时序预测
答案: 【 关联规则挖掘

11、单选题:
‌以下属于关联规则分析的是(  )。​
选项:
A: CPU性能预测
B: 购物篮分析
C: 自动判断鸢尾花类别
D: 股票趋势建模
答案: 【 购物篮分析

12、单选题:
​置信度(confidence)是衡量兴趣度度量(  )的指标。‎
选项:
A: 简洁性
B: 确定性
C: 实用性
D: 新颖性
答案: 【 确定性

13、多选题:
‎关于关联规则,正确的是:(  )。‍
选项:
A: 关联规则挖掘的算法主要有: Apriori和FP-Growth
B: 一个项集满足最小支持度,我们称之为频繁项集
C: 啤酒与尿布的故事是聚类分析的典型实例
D: 支持度是衡量关联规则重要性的一个指标
答案: 【 关联规则挖掘的算法主要有: Apriori和FP-Growth;
一个项集满足最小支持度,我们称之为频繁项集;
支持度是衡量关联规则重要性的一个指标

14、多选题:
​关联规则使用的主要指标有(  )。‏
选项:
A: 置信度(confidence)
B: 支持度 (support)
C: 提升度(lift)
D: 精确度(precision)
答案: 【 置信度(confidence);
支持度 (support);
提升度(lift)

15、多选题:
‍FP-Growth和Apriori算法的比较,正确的是(  )。‏
选项:
A: Apriori使用候选集
B: FP-Growth没有候选集
C: FP-growth 的模式生成通过构建FP-Tree
D: Apriori比FP-Tree更麻烦,更难构建
答案: 【 Apriori使用候选集;
FP-Growth没有候选集;
FP-growth 的模式生成通过构建FP-Tree

16、多选题:
​FP-Growth算法的优点包括( )。‌
选项:
A: 与Apriori算法相比,该算法只需对数据库进行两次扫描
B: 该算法不需要对项目进行配对,因此速度更快
C: 数据库存储在内存中的压缩版本中
D: 对长、短频繁模式的挖掘具有高效性和可扩展性
答案: 【 与Apriori算法相比,该算法只需对数据库进行两次扫描;
该算法不需要对项目进行配对,因此速度更快;
数据库存储在内存中的压缩版本中;
对长、短频繁模式的挖掘具有高效性和可扩展性

17、判断题:
‍决策树方法通常用于关联规则挖掘。‎
选项:
A: 正确
B: 错误
答案: 【 错误

18、判断题:
​Apriori算法是一种典型的关联规则挖掘算法。‍
选项:
A: 正确
B: 错误
答案: 【 正确

19、判断题:
‍具有较高的支持度的项集具有较高的置信度。‎
选项:
A: 正确
B: 错误
答案: 【 错误

20、判断题:
‍给定关联规则A->B,意味着:若A发生,B也会发生。​
选项:
A: 正确
B: 错误
答案: 【 错误

决策树

决策树课后测验

1、单选题:
‏以下关于决策树特点分析的说法错误的有 (  )。‏
选项:
A: 推理过程容易理解,计算简单
B: 算法考虑了数据属性之间的相关性
C: 算法自动忽略了对模型没有贡献的属性变量
D: 算法容易造成过拟合
答案: 【 算法考虑了数据属性之间的相关性

2、单选题:
‎以下关于决策树原理介绍错误的有 (  )。​
选项:
A: 决策树算法属于无监督学习
B: 决策树算法本质上是贪心算法
C: 决策树生成过程中需要用到分割法
D: 决策树决策过程从根节点开始
答案: 【 决策树

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注