机器学习算法（机器学习期末题库）

时间2025-09-19 13:52:33分类IT科技浏览5763

导读：机器学习期末题库 1.属于监督学习的机器学习算法是：贝叶斯分类器...

机器学习期末题库

1.属于监督学习的机器学习算法是：贝叶斯分类器

2.属于⽆监督学习的机器学习算法是：层次聚类

3.⼆项式分布的共轭分布是：Beta分布

4.多项式分布的共轭分布是：Dirichlet分布

5.朴素贝叶斯分类器的特点是：假设样本各维属性独⽴

6.下列⽅法没有考虑先验分布的是：最⼤似然估计

7.对于正态密度的贝叶斯分类器，各类协⽅差矩阵相同时，决策函数为：线性决策函数

8.下列属于线性分类⽅法的是：感知机

9.下列⽅法不受数据归⼀化影响的是：决策树

10.下列分类⽅法中不会⽤到梯度下降法的是：最⼩距离分类器

11.下列⽅法使⽤最⼤似然估计的是：Logistic回归

12.关于线性鉴别分析的描述最准确的是，找到⼀个投影⽅向，使得：类内距离最⼩，类间距离最⼤

13.SVM的原理的简单描述，可概括为：最⼤间隔分类

14.SVM的算法性能取决于：以上都有（核函数的选择、核函数的参数、软间隔参数C）

15.⽀持向量机的对偶问题是：凸⼆次优化

16.以下对⽀持向量机中的⽀撑向量描述正确的是：最⼤间隔⽀撑⾯上的向量

17.假定你使⽤阶数为2的线性核SVM ，将模型应⽤到实际数据集上后，其训练准确率和测试准确率均为100% 。现在增加模型复杂度（增加核函数的阶），会发⽣以下哪种情况：过拟合

18.避免直接的复杂⾮线性变换，采⽤线性⼿段实现⾮线性学习的⽅法是：核函数⽅法

19.关于决策树节点划分指标描述正确的是：信息增益越⼤越好

20.以下描述中，属于决策树策略的是：最⼤信息增益

21.集成学习中基分类器的选择如何，学习效率通常越好：分类器多样，差异⼤

22.集成学习中，每个基分类器的正确率的最低要求：50%以上

23.下⾯属于Bagging⽅法的特点是：构造训练集时采⽤Bootstraping的⽅式

24.下⾯属于Bagging⽅法的特点是：构造训练集时采⽤Bootstraping的⽅式

25.随机森林⽅法属于：Bagging⽅法

26.假定有⼀个数据集S ，但该数据集有很多误差，采⽤软间隔SVM训练，阈值为C ，如果C的值很⼩，以下哪种说法正确：会发⽣误分类现象

27.软间隔SVM的阈值趋于⽆穷，下⾯哪种说法正确：只要最佳分类超平⾯存在，它就能将所有数据全部正确分类

28.⼀般，K-NN最近邻⽅法在什么情况下效果好：样本较少但典型性较好

29.回归问题和分类问题的区别：前者预测函数值为连续值，后者为离散值

30.最⼩⼆乘回归⽅法的等效回归⽅法：线性均值和正态误差的最⼤似然回归

31.正则化的回归分析，可以避免：过拟合

32.“啤酒-纸尿布 ”问题讲述的是，超市购物中，通过分析购物单发现，买了纸尿布的男⼠，往往⼜买了啤酒。这是⼀个什么问题：关联分析

33.KL散度是根据什么构造的可分性判据：类概率密度

34.密度聚类⽅法充分考虑了样本间的什么关系：密度可达

35.混合⾼斯聚类中，运⽤了以下哪种过程：EM算法

36.主成分分析是⼀种什么⽅法：降维⽅法

37.PCA在做降维处理时，优先选取哪些特征：中⼼化样本的协⽅差矩阵的最⼤特征值对应特征向量

38.过拟合现象中：训练样本的测试误差最⼩，测试样本的正确识别率却很低

39.如右图所⽰有向图，节点G的马尔可夫毯为：{D,E,F,H,I,J}

40.如右图所⽰⽆向图，节点G的马尔可夫毯为：{D,E,I,J}

41.多层感知机⽅法中，可⽤作神经元的⾮线性激活函数：Logistic函数

42.在有限⽀撑集上，下⾯分布的熵最⼤：均匀分布

43.已知均值和⽅差，下⾯哪种分布的熵最⼤：⾼斯分布

44.以下模型中属于概率图模型的是：受限玻尔兹曼机

45.如右图所⽰有向图，以下陈述正确的有：B和G关于{C,F}条件独⽴

46.在标准化公式中，使⽤的⽬的是：防⽌分母为零

47.梯度下降算法的正确步骤是什么：4,3,1,5,2 （初始化-输⼊-计算误差-改变权重以减⼩误差-迭代更新）

（1）计算预测值和真实值之间的误差

（2）迭代跟新，直到找到最佳权重

（3）把输⼊传⼊⽹络，得到输出值

（4）初始化随机权重和偏差

（5）对每⼀个产⽣误差的神经元，改变相应的（权重）值以减⼩误差

48.假如使⽤⼀个较复杂的回归模型来拟合样本数据，使⽤岭回归，调试正则化参数，来降低模型复杂度。若λ较⼤时，关于偏差和⽅差，下列说法正确的是：若λ较⼤时，偏差减⼩，⽅差减⼩

49.以下哪种⽅法会增加模型的⽋拟合风险：数据增强

50.以下说法正确的是：除了EM算法，梯度下降也可求混合⾼斯模型的参数

51.在训练神经⽹络时，如果出现训练error过⾼，下列哪种⽅法不能⼤幅度降低训练error：增加训练数据

52.以下哪种激活函数可以导致梯度消失：Tanh

53.增加以下哪些超参数可能导致随机森林模型过拟合数据：（2）决策树的深度

54.以下关于深度⽹络训练的说法正确的是：D

A.训练过程需要⽤到梯度，梯度衡量了损失函数相对于模型参数的变化率

B.损失函数衡量了模型预测结果与真实值之间的差异

C.训练过程基于⼀种叫做反向传播的技术

D.其他选项都正确

55.以下哪⼀项在神经⽹络中引⼊了⾮线性：ReLU

56.在线性回归中使⽤正则项，你发现解的不少coefficient都是0 ，则这个正则项可能是：

L0-norm 、L1-norm

57.关于CNN ，以下结论正确的是：Pooling层⽤于减少图⽚的空间分辨率

58.关于k-means算法，正确的描述是：初始值不同，最终结果可能不同

59.下列关于过拟合现象的描述中，哪个是正确的：训练误差⼩，测试误差⼤

60.以下关于卷积神经⽹络，说法正确的是：卷积神经⽹络可以有多个卷积核，可以不同⼤⼩

61.LR模型的损失函数是：交叉熵

62.GRU和LSTM的说法正确的是：GRU的参数⽐LSTM的参数少

63.以下⽅法不可以⽤于特征降维的有：Monte Carlo method

64.下列哪个函数不可以做激活函数：y=2x

65.有两个样本点，第⼀个点为正样本,它的特征向量是(0,-1);第⼆个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建⼀个线性SVM分类器的分类⾯⽅程是：x+2y=3

66.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题：SVM算法中使⽤⾼斯核代替线性核

67.下⽅法中属于⽆监督学习算法的是：K-Means聚类

68.Bootstrap数据是什么意思：有放回地从总共N个样本中抽样n个样本

69.下⾯关于贝叶斯分类器描述错误的是：是基于后验概率，推导出先验概率

70.下⾯关于Adaboost算法的描述中，错误的是：同时独⽴地学习多个弱分类器

71.以下机器学习中，在数据预处理时，不需要考虑归⼀化处理的是：树形模型

72.⼆分类任务中，有三个分类器h1,h2,h3 ，三个测试样本x1,x2,x3 。假设1表⽰分类结果正确，0表⽰错误，h1在x1,x2,x3的结果分别(1,1,0) ，h2,h3分别为(0,1,1) ，(1,0,1) ，按投票法集成三个分类器，下列说法正确的是：集成提⾼了性能

73.有关机器学习分类算法的Precision和Recall ，以下定义中正确的是（假定tp = true positive, tn = true negative, fp = false positive, fn =false negative）：

Precision= tp / (tp + fp), Recall = tp / (tp + fn)

74.下列哪个不属于常⽤的⽂本分类的特征选择算法：主成分分析

75.在HMM中，如果已知观察序列和产⽣观察序列的状态序列，那么可⽤以下哪种⽅法直接进⾏参数估计：极⼤似然估计

76.以下哪种距离会侧重考虑向量的⽅向：余弦距离

77.解决隐马模型中预测问题的算法是：维特⽐算法

78.在Logistic Regression 中,如果同时加⼊L1和L2范数,会产⽣什么效果：可以做特征选择，并在⼀定程度上防⽌过拟合

79.普通反向传播算法和随时间的反向传播算法（BPTT）有什么技术上的不同：与普通反向传播不同的是，BPTT会在每个时间步长内叠加所有对应权重的梯度

80.梯度爆炸问题是指在训练深度神经⽹络的时候，梯度变得过⼤⽽损失函数变为⽆穷。在RNN中，下⾯哪种⽅法可以较好地处理梯度爆炸

问题：梯度裁剪

81.当训练⼀个神经⽹络来作图像识别任务时，通常会绘制⼀张训练集误差和验证集误差图来进⾏调试。在下图中，最好在哪个时间停⽌训

练：C

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ctS8tH71-1655199702381)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612170843797.png)]

第 1 题

一个计算机程序从经验E中学习任务T ，并用P来衡量表现。并且，T的表现P随着经验E的增加而提高。

假设我们给一个学习算法输入了很多历史天气的数据，让它学会预测天气。什么是P的合理选择？

A. 计算大量历史气象数据的过程

B. 以上都不

C. 正确预测未来日期天气的概率

D. 天气预报任务

第 2 题

假设你正在做天气预报，并使用算法预测明天气温（摄氏度/华氏度），你会把这当作一个分类问题还是一个回归问题？

A. 分类

B. 回归

第 3 题

假设你在做股市预测。你想预测某家公司是否会在未来7天内宣布破产（通过对之前面临破产风险的类似公司的数据进行训练）。你会把这当作一个分类问题还是一个回归问题？

A. 分类

B. 回归

第 4 题

下面的一些问题最好使用有监督的学习算法来解决，而其他问题则应该使用无监督的学习算法来解决。以下哪一项你会使用监督学习？（选择所有适用的选项）在每种情况下，假设有适当的数据集可供算法学习。

A. 根据一个人的基因（DNA）数据，预测他/她的未来10年患糖尿病的几率

B. 根据心脏病患者的大量医疗记录数据集，尝试了解是否有不同类患者群，我们可以为其量身定制不同的治疗方案

C. 让计算机检查一段音频，并对该音频中是否有人声（即人声歌唱）或是否只有乐器（而没有人声）进行分类

D. 给出1000名医疗患者对实验药物的反应（如治疗效果、副作用等）的数据，发现患者对药物的反应是否有不同的类别或“类型 ” ，如果有，这些类别是什么

第 5 题

哪一个是机器学习的合理定义？

A. 机器学习从标记的数据中学习

B. 机器学习能使计算机能够在没有明确编程的情况下学习

C. 机器学习是计算机编程的科学

D. 机器学习是允许机器人智能行动的领域

第 6 题

基于一个学生在大学一年级的表现，预测他在大学二年级表现。

令x等于学生在大学第一年得到的“A ”的个数（包括A- ，A和A+成绩）学生在大学第一年得到的成绩。预测y的值：第二年获得的“A ”级的数量

这里每一行是一个训练数据。在线性回归中，我们的假设hθ(x)=θ0+θ1x ，并且我们使用m来表示训练示例的数量。 | x | y | | 3 | 2 | | 1 | 2 | | 0 | 1 | | 4 | 3 |

对于上面给出的训练集（注意，此训练集也可以在本测验的其他问题中引用），m的值是多少？

第 7 题

对于这个问题，假设我们使用第一题中的训练集。并且，我们对代价函数的定义是J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2

求J(0,1)

第 8 题

令问题1中，线性回归假设的θ0=−1,θ1=2 ，求hθ(6)？

第 9 题

代价函数J(θ0,θ1)与θ0,θ1的关系如图2所示。“图1 ”中给出了相同代价函数的等高线图。根据图示，选择正确的选项（选出所有正确项）

A. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近A点，即代价函数J(θ0,θ1)在A点有最小值

B. 点P（图2的全局最小值）对应于图1的点C

C. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近C点，即代价函数J(θ0,θ1)在C点有最小值

D. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近A点，即代价函数J(θ0,θ1)在A点有最大值

E. 点P（图2的全局最小值）对应于图1的点A

第 10 题

假设对于某个线性回归问题（比如预测房价），我们有一些训练集，对于我们的训练集，我们能够找到一些θ0,θ1 ，使得J(θ0,θ1)=0 。

以下哪项陈述是正确的？（选出所有正确项）

A. 为了实现这一点，我们必须有θ0=0,θ1=0 ，这样才能使J(θ0,θ1)=0

B. 对于满足J(θ0,θ1)=0的θ0,θ1的值，其对于每个训练例子(x(i),y(i)) ，都有hθ(x(i))=y(i)

C. 这是不可能的：通过J(θ0,θ1)=0的定义，不可能存在θ0,θ1使得J(θ0,θ1)=0

D. 即使对于我们还没有看到的新例子，我们也可以完美地预测y的值（例如，我们可以完美地预测我们尚未见过的新房的价格）

第 11 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eIxCOuA6-1655199702382)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171415306.png)]

第 12 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HeGb32rU-1655199702382)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171402929.png)]

第 13 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6ZkiMIL2-1655199702383)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171356197.png)]

第 14 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rHrPn3OV-1655199702383)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171343679.png)]

第 15 题

令A和B是3x3矩阵，以下哪一项一定是正确的（选出所有正确项）

A. A+B=B+A

B. 如果v是一个3维向量，那么A∗B∗v是三维向量

C. A∗B∗A=B∗A∗B

D. 如果C=A∗B ，那么C是个6x6矩阵

第 16 题¶

假设m=4个学生上了一节课，有期中考试和期末考试。你已经收集了他们在两次考试中的分数数据集，如下所示：

期中得分 (期中得分)^2 期末得分 89 7921 96 72 5184 74 94 8836 87 69 4761 78

你想用多项式回归来预测一个学生的期中考试成绩。具体地说，假设你想拟合一个hθ(x)=θ0+θ1x1+θ2x2的模型，其中x1是期中得分，x2是（期中得分）^2 。此外，你计划同时使用特征缩放（除以特征的“最大值-最小值 ”或范围）和均值归一化。

标准化后的x2(4)特征值是多少？（提示：期中=89 ，期末=96是训练示例1）

第 17 题

用α=0.3进行15次梯度下降迭代，每次迭代后计算J(θ) 。你会发现J(θ)的值下降缓慢，并且在15次迭代后仍在下降。基于此，以下哪个结论似乎最可信？

A. α=0.3是学习率的有效选择。

B. 与其使用α当前值，不如尝试更小的α值（比如α=0.1）

C. 与其使用α当前值，不如尝试更大的α值（比如α=1.0）

第 18 题

假设您有m=14个训练示例，有n=3个特性（不包括需要另外添加的恒为1的截距项），正规方程是θ=(XTX)−1XTy。对于给定m和n的值，这个方程中θ,X,y的维数分别是多少？

A. X 14×3, y 14×1, θ 3×3

B. X 14×4, y 14×1, θ 4×1

C. X 14×3, y 14×1, θ 3×1

D. X 14×4, y 14×4, θ 4×4

第 19 题

假设您有一个数据集，每个示例有m=1000000个示例和n=200000个特性。你想用多元线性回归来拟合参数θ到我们的数据。你更应该用梯度下降还是正规方程？

A. 梯度下降，因为正规方程中θ=(XTX)−1中计算非常慢

B. 正规方程，因为它提供了一种直接求解的有效方法

C. 梯度下降，因为它总是收敛到最优θ

D. 正规方程，因为梯度下降可能无法找到最优θ

第 20 题

以下哪些是使用特征缩放的原因？

A. 它可以防止梯度下降陷入局部最优

B. 它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

C. 它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度

D. 它防止矩阵XTX（用于正规方程）不可逆（奇异/退化）

第 26 题

假设您已经训练了一个逻辑分类器，它在一个新示例x上输出一个预测hθ(x)=0.4。这意味着（选出所有正确项）：

A. 我们对P(y=0∣x;θ)的估计是0.4

B. 我们对P(y=1∣x;θ)的估计是0.6

C. 我们对P(y=0∣x;θ)的估计是0.6

D. 我们对P(y=1∣x;θ)的估计是0.4

第 27 题

假设您有以下训练集，并拟合logistic回归分类器hθ(x)=g(θ0+θ1x1+θ2x2)

以下哪项是正确的？选出所有正确项

A. 添加多项式特征（例如，使用hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x1x2+θ5x22)）可以增加我们拟合训练数据的程度

B. 在θ的最佳值（例如，由fminunc找到）处，J(θ)≥0

C.添加多项式特征（例如，使用hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x1x2+θ5x22)将增加J(θ)，因为我们现在正在对更多项进行求和

D.如果我们训练梯度下降迭代足够多次，对于训练集中的一些例子x(i) ，可能得到hθ(x(i))>1

第 28 题

对于逻辑回归，梯度由∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)给出。以下哪项是学习率为α的逻辑回归的正确梯度下降更新？选出所有正确项

A. θ:=θ−α1m∑i=1m(θTx−y(i))x(i)

B. θj:=θj−α1m∑i=1m(11+e−θTx(i)−y(i))xj(i)（同时更新所有j）

C. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)（同时更新所有j）

D. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)（同时更新所有j）

第 29 题

以下哪项陈述是正确的？选出所有正确项

A. 对于逻辑回归，梯度下降有时会收敛到一个局部最小值（并且无法找到全局最小值）。这就是为什么我们更喜欢更先进的优化算法，如fminunc（共轭梯度/BFGS/L-BFGS/等等）

B. sigmoid函数g(z)=11+e−z数值永远不会大于1

C.用m≥1个例子训练的逻辑回归的代价函数J(θ)总是大于或等于零

D. 使用线性回归+阈值的方法做分类预测，总是很有效的

第 30 题

假设训练一个逻辑回归分类器hθ(x)=g(θ0+θ1x1+θ2x2) 。假设θ0=6,θ1=−1,θ2=0 ，下列哪个图表示分类器找到的决策边界？

Week 3 | 2 正则化

第 31 题

你正在训练一个分类逻辑回归模型。以下哪项陈述是正确的？选出所有正确项

A. 将正则化引入到模型中，总是能在训练集上获得相同或更好的性能

B. 在模型中添加许多新特性有助于防止训练集过度拟合

C. 将正则化引入到模型中，对于训练集中没有的例子，总是可以获得相同或更好的性能

D. 向模型中添加新特征总是会在训练集上获得相同或更好的性能

第 32 题

假设您进行了两次逻辑回归，一次是λ=0 ，一次是λ=1 。其中一次，得到参数θ=[81.4712.69] ，另一次，得到θ=[13.010.91] 。

但是，您忘记了哪个λ值对应于哪个θ值。你认为哪个对应于λ=1？

A. θ=[13.010.91]

B. θ=[81.4712.69]

第 33 题

以下关于正则化的陈述哪一个是正确的？选出所有正确项

A. 使用太大的λ值可能会导致您的假设与数据过拟合；这可以通过减小λ来避免

B. 使用非常大的值λ不会影响假设的性能；我们不将λ设置为太大的唯一原因是避免数值问题

C. 考虑一个分类问题。添加正则化可能会导致分类器错误地分类某些训练示例（当不使用正则化时，即当λ=0时，它正确地分类了这些示例）

D. 由于逻辑回归的输出值0≤hθ(x)≤1，其输出值的范围无论如何只能通过正则化来“缩小 ”一点，因此正则化通常对其没有帮助

第 34 题

下列哪一个图片的假设与训练集过拟合？

第 35 题

下列哪一个图片的假设与训练集欠拟合？

第 36 题

以下哪项陈述是正确的？选择所有正确项

A. 神经网络中隐藏单元的激活值，在应用了sigmoid函数之后，总是在（0 ，1）范围内

B. 在二进制值（0或1）上的逻辑函数可以（近似）用一些神经网络来表示

C. 两层（一个输入层，一个输出层，没有隐藏层）神经网络可以表示异或函数

D. 假设有一个三个类的多类分类问题，使用三层网络进行训练。设a1(3)=(hΘ(x))1为第一输出单元的激活，并且类似地，有a2(3)=(hΘ(x))2和a3(3)=(hΘ(x))3 。那么对于任何输入x ，必须有a1(3)+a2(3)+a3(3)=1

第 37 题

考虑以下两个二值输入x1,x2∈{0,1}和输出hΘ(x)的神经网络。它（近似）计算了下列哪一个逻辑函数？

A. OR

B. AND

C. NAND (与非)

D. XOR (异或)

第 38 题

考虑下面给出的神经网络。下列哪个方程正确地计算了a1(3)的激活？注：g(z)是sigmoid激活函数

A. a1(3)=g(Θ1,0(2)a0(2)+Θ1,1(2)a1(2)+Θ1,2(2)a2(2))

B. a1(3)=g(Θ1,0(1)a0(1)+Θ1,1(1)a1(1)+Θ1,2(1)a2(1))

C. a1(3)=g(Θ1,0(1)a0(2)+Θ1,1(1)a1(2)+Θ1,2(1)a2(2))

D. 此网络中不存在激活a1(3)

第 39 题

你有以下神经网络：

你想计算隐藏层a(2)∈R3的激活，一种方法是使用以下Octave代码：

您需要一个矢量化的实现（即，一个不用循环的实现）。下列哪个实现正确计算a(2)？选出所有正确项

A. z = Theta1 * x; a2 = sigmoid (z)

B. a2 = sigmoid (x * Theta1)

C. a2 = sigmoid (Theta2 * x)

D. z = sigmoid(x); a2 = sigmoid (Theta1 * z)

第 40 题

您正在使用下图所示的神经网络，并已学习参数Θ(1)=[112.411.73.2]（用于计算a(2)）和Θ(2)=[10.3−1.2]（用于作用在a(2)的函数，计算a(3)的值）。

假设您交换第一个隐藏层的2个单元的参数Θ(1)=[11.73.2112.4] ，并且还交换输出层Θ(2)=[1−1.20.3] 。这将如何改变输出hΘ(x)的值？

A. 不变

B. 变大

C. 变小

D. 信息不全，可能变大也可能变小

第 41 题

您正在训练一个三层神经网络，希望使用反向传播来计算代价函数的梯度。

在反向传播算法中，其中一个步骤是更新

Δij(2):=Δij(2)+δi(3)∗(a(2))j

对于每个i ，j ，下面哪一个是这个步骤的正确矢量化？

A. Δ(2):=Δ(2)+(a(2))T∗δ(3)

B. Δ(2):=Δ(2)+(a(3))T∗δ(2)

C. Δ(2):=Δ(2)+δ(3)∗(a(2))T

D. Δ(2):=Δ(2)+δ(3)∗(a(3))T

第 42 题

假设Theta1是一个5x3矩阵，Theta2是一个4x6矩阵。令thetaVec=[Theta1(;);Theta2(:)] 。下列哪一项可以正确地还原Theta2？

A. reshape(thetaVec(16:39),4,6)

B. reshape(thetaVec(15:38),4,6)

C. reshape(thetaVec(16:24),4,6)

D. reshape(thetaVec(15:39),4,6)

E. reshape(thetaVec(16:39),6,4)

第 43 题

设J(θ)=2θ3+2 ，设θ=1,ϵ=0.01 。用公式JJ(θ+ϵ)−J(θ−ϵ)2ϵ来数值计算在θ=1时的逼近。你将得到什么值？（当θ=1时，精确导数为dJ(θ)dθ=6）

A. 8

B. 6

C. 5.9998

D. 6.0002

第 44 题

以下哪项陈述是正确的？选择所有正确项

A. 使用较大的λ值不会影响神经网络的性能；我们不将λ设置为太大的唯一原因是避免数值问题

B. 如果我们使用梯度下降作为优化算法，梯度检查是有用的。然而，如果我们使用一种先进的优化方法（例如在fminunc中），它没有多大用处

C. 使用梯度检查可以帮助验证反向传播的实现是否没有bug

D. 如果我们的神经网络过拟合训练集，一个合理的步骤是增加正则化参数λ

第 45 题

以下哪项陈述是正确的？选择所有正确项

A. 假设参数Θ(1)是一个方矩阵（即行数等于列数）。如果我们用它的转置(Θ(1))T代替Θ(1) ，那么我们并没有改变网络正在计算的功能。

B. 假设我们有一个正确的反向传播实现，并且正在使用梯度下降训练一个神经网络。假设我们将J(Θ)绘制为迭代次数的函数，并且发现它是递增的而不是递减的。一个可能的原因是学习率α太大。

C. 假设我们使用学习率为α的梯度下降。对于逻辑回归和线性回归，J(Θ)是一个凸优化问题，因此我们不想选择过大的学习率α 。

然而，对于神经网络，J(Θ)可能不是凸的，因此选择一个非常大的α值只能加快收敛速度。

D. 如果我们使用梯度下降训练一个神经网络，一个合理的调试步骤是将J(Θ)绘制为迭代次数的函数，并确保每次迭代后它是递减的（或至少是不递增的）。

第 46 题

你训练一个学习算法，发现它在测试集上的误差很高。绘制学习曲线，并获得下图。算法是否存在高偏差、高方差或两者都不存在？

A. 高偏差

B. 高方差

C. 两者都不

第 47 题

假设您已经实现了正则化逻辑回归来分类图像中的对象（即，还没有实现图像识别）。然而，当你在一组新的图像上检验你的模型时，你会发现它对新图像的预测有误差非常大。然而，你的假设在训练集上拟合的很好。以下哪个做法可以改善？选出所有正确项

A. 尝试添加多项式特征

B. 获取更多训练示例

C. 尝试使用较少的特征

D. 少用训练的例子

第 48 题

假设您已经实现了正则化的逻辑来预测客户将在购物网站上购买哪些商品。然而，当你在一组新的客户身上测试你的模型时，你发现它在预测中的误差很大。此外，该模型在训练集上表现不佳。以下哪个做法可以改善？选出所有正确项

A. 尝试获取并使用其他特征

B. 尝试添加多项式特征

C. 尝试使用较少的特征

D. 尝试增加正则化参数λ

第 49 题

以下哪项陈述是正确的？选出所有正确项

A. 假设您正在训练一个正则化的线性回归模型。选择正则化参数λ值的推荐方法是选择交叉验证误差最小的λ值。

B. 假设您正在训练一个正则化的线性回归模型。选择正则化参数λ值的推荐方法是选择给出最小测试集误差的λ值。

C. 假设你正在训练一个正则化线性回归模型，推荐的选择正则化参数λ值的方法是选择给出最小训练集误差的λ值。

D. 学习算法在训练集上的性能通常比在测试集上的性能要好。

第 50 题

以下哪项陈述是正确的？选出所有正确项

A. 在调试学习算法时，绘制学习曲线有助于了解是否存在高偏差或高方差问题。

B. 如果一个学习算法受到高方差的影响，增加更多的训练实例可能会改善测试误差。

C. 我们总是喜欢高方差的模型（而不是高偏差的模型），因为它们能够更好地适应训练集。

D. 如果一个学习算法有很高的偏差，仅仅增加更多的训练实例可能不会显著改善测试误差。

第 51 题

你正在研究一个垃圾邮件分类系统，准备使用正则化的逻辑回归。“垃圾邮件 ”是正类（y=1），“非垃圾邮件 ”是负类（y=0）。您已经训练了分类器，交叉验证集中有m=1000个示例。预测类与实际类的图表为：

供参考：

准确度Accuracy=（真阳性+真阴性）/（总示例）

精度Precision =（真阳性）/（真阳性+假阳性）

召回Recall=（真阳性）/（真阳性+假阴性）

F1分数=（2精确召回）/（精确+召回）

分类器的召回是多少？

第 52 题

假设一个庞大的数据集可以用来训练一个学习算法。当以下两个条件成立时，对大量数据进行训练可能会产生良好的性能。两个条件是哪两个？

A. 特征x包含足够的信息来精确地预测y 。（例如，一个验证这一点的方法是，当只给x时，人类专家是否能够自信地预测y）。

B. 我们训练一个具有少量参数的学习算法（因此不太可能过拟合）。

C. 我们训练具有大量参数的学习算法（能够学习/表示相当复杂的函数）。

D. 我们训练一个不使用正则化的模型。

第 53 题

假设您已经训练了一个输出hθ(x)的逻辑回归分类器。

目前，如果hθ(x)≥threshold ，则预测1，

如果hθ(x)≤threshold ，则预测0 ，当前阈值设置为0.5 。

假设您将阈值增加到0.9。以下哪项是正确的？选出所有正确项

A. 现在分类器的精度可能更低。

B. 分类器的准确度和召回率可能不变，但准确度较低。

C. 分类器的准确度和召回率可能不变，但精度较高。

D. 分类器现在可能具有较低的召回率。

假设您将阈值降低到0.3 。以下哪项是正确的？选出所有正确项

A. 分类器现在可能具有更高的召回率。

B. 分类器的准确度和召回率可能不变，但精度较高。

C. 分类器现在可能具有更高的精度。

D. 分类器的准确度和召回率可能不变，但准确度较低。

第 54 题

假设您正在使用垃圾邮件分类器，其中垃圾邮件是正例（y=1），非垃圾邮件是反例（y=0）。您有一组电子邮件训练集，其中99%的电子邮件是非垃圾邮件，另1%是垃圾邮件。以下哪项陈述是正确的？选出所有正确项

A. 一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall 。

B. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器在训练集上的准确度accuracy将达到99% ，而且它在交叉验证集上的性能可能类似。

C. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器的准确度accuracy将达到99% 。

D. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器在训练集上的准确度accuracy将达到99% ，但在交叉验证集上的准确率会更差，因为它过拟合训练数据。

E. 如果总是预测垃圾邮件（输出y=1），则分类器的召回率recall为0% ，精度precision为99%。

F. 如果总是预测非垃圾邮件（输出y=0），则分类器的召回率recall为0% 。

G. 如果您总是预测垃圾邮件（输出y=1），那么您的分类器将具有召回率recall 100%和精度precision 1% 。

H. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器的准确度accuracy将达到99%。

第 55 题

以下哪项陈述是正确的？选出所有正确项

A. 在构建学习算法的第一个版本之前，花大量时间收集大量数据是一个好主意。

B. 在倾斜的数据集上（例如，当有更多的正面例子而不是负面例子时），准确度不是一个很好的性能度量，您应该根据准确度和召回率使用F1分数。

C. 训练完逻辑回归分类器后，必须使用0.5作为预测示例是正是负的阈值。

D. 使用一个非常大的训练集使得模型不太可能过度拟合训练数据。

E. 如果您的模型不适合训练集，那么获取更多数据可能会有帮助。

第 56 题

假设您使用训练了一个高斯内核的支持向量机，它在训练集上学习了以下决策边界：

你觉得支持向量机欠拟合了，你应该试着增加或减少C吗？或者增加或减少σ2？

A. 降低C ，增加σ2

B. 降低C ，降低σ2

C. 增加C，增加σ2

D. 增加C ，降低σ2

第 57 题

高斯核的公式是由similarity(x,l(1))=exp⁡(−||x−l(1)||22σ2)给出的。

下图显示了当σ2=1时，f1=similarity(x,l(1))的曲线图。

当σ2=0.25时，下列哪个是f1的曲线图？

第 58 题

支持向量机求解minθ C∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))+∑j=1nθj2 ，其中函数cost0(z)和cost1(z)图像如下：

目标中的第一项是：C∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i)).

如果以下四个条件中有两个为真，则第一项为零。使这个项等于零的两个条件是什么？

A. 对于y(i)=1的每个例子，有θTx(i)≥1

B. 对于y(i)=0的每个例子，有θTx(i)≤−1

C. 对于y(i)=1的每个例子，有θTx(i)≥0

D. 对于y(i)=0的每个例子，有θTx(i)≤0

第 59 题

假设您有一个具有n=10个特征和m=5000个示例的数据集。在用梯度下降训练逻辑回归分类器之后，您发现它与训练集欠拟合，并且在训练集或交叉验证集上没有达到所需的性能。以下哪个步骤有望改善？选出所有正确项

A. 尝试使用具有大量隐藏单元的神经网络。

B. 减少训练集中的示例数。

C. 使用不同的优化方法，因为使用梯度下降训练逻辑可能会导致局部最小。

D. 创建/添加新的多项式特征。

第 60 题

以下哪项陈述是正确的？选出所有正确项

A. 假设您使用支持向量机进行多类分类，并希望使用“一对所有 ”方法。如果你有K个不同的类，你将训练K−1个不同的支持向量机。

B. 如果数据是线性可分的，那么不管C值是多少，线性内核的支持向量机都将返回相同的参数θ（即，θ的结果值不依赖于C）。

C. 高斯核的最大值（即sim(x,l(1))）是1 。

D. 在使用高斯核之前进行特征归一化是很重要的。

第 61 题

对于以下哪些任务，K-means聚类可能是一种合适的算法？选出所有正确项

A. 给定一个关于用户信息的数据库，自动将用户分组到不同的市场细分中。

B. 根据超市中大量产品的销售数据，找出哪些产品可以组成组合（比如经常一起购买），因此应该放在同一个货架上。

C. 根据历史天气记录，预测明天的降雨量

D. 给定超市中大量产品的销售数据，估计这些产品的未来销售额。

E. 给出一组来自许多不同新闻网站的新闻文章，找出所涉及的主要主题。

F. 基于许多电子邮件，确定它们是垃圾邮件还是非垃圾邮件。

G. 从网站上的用户使用模式，找出哪些不同的用户群体存在。

H. 根据历史天气记录，预测明天的天气是晴还是雨。

第 62 题

假设我们有三个簇中心μ1=[12],μ2=[−30],μ3=[42] 。此外，我们还有一个训练示例x(i)=[−21] 。在一个集群分配步骤之后，c(i)将是什么？

A. c(i)=2

B. c(i)未被分配

C. c(i)=1

D. c(i)=3

第 63 题

K-means是一种迭代算法，在其内部循环中重复执行以下两个步骤。哪两个？

A. 移动簇中心，更新簇中心μk 。

B. 分配簇，其中参数c(i)被更新。

C. 移动簇中心μk ，将其设置为等于最近的训练示例c(i)

D. 簇中心分配步骤，其中每个簇质心μi被分配（通过设置c(i)）到最近的训练示例x(i)。

第 64 题

假设您有一个未标记的数据集{x(1),…,x(m)} 。你用50个不同的随机数运行K-means初始化，并获得了50个不同的聚类。选择这50个组合中的哪一个的方法是什么？

A. 唯一的方法是我们需要数据标签y(i) 。

B. 对于每一个分类，计算1m∑i=1m||x(i)−μc(i)||2 ，并选择这个值最小的一个。

C. 答案模棱两可，没有好的选择方法。

D. 总是选择找到的最后一个（第50个）聚类，因为它更有可能收敛到一个好的解决方案。

第 65 题

以下哪项陈述是正确的？选出所有正确项

A. 如果我们担心K-means陷入局部最优解，一种改善（减少）这个问题的方法是尝试使用多个随机初始化。

B. 初始化K-均值的标准方法是将μ1=…=μk设置为等于零的向量。

C. 由于K-Means是一种无监督的学习算法，它不能对数据进行过度拟合，因此最好在计算上尽可能多的聚类。

D. 对于某些数据集，K（集群数量）的“正确 ”值可能是不明确的，甚至对于仔细查看数据的人类专家来说也很难做出决定。

E. 无论簇中心的初始化如何，K-均值都会给出相同的结果。

F. 初始化K-means的一个好方法是从训练集中选择K个（不同的）示例，并设置与这些选定示例相等的簇质心。

G. 在K-均值的每次迭代中，代价函数J(c(1),…,c(m),μ1,…,μk)（失真函数）要么保持不变，要么减小，特别是不应增加。

H. 一旦一个例子被分配到一个特定的簇中心，它将永远不会被重新分配到另一个不同的簇中心。

第 66 题

考虑以下二维数据集：

下列哪个图片对应的PCA可能返回的u(1)（第一特征向量/第一主成分）的值？选出所有正确项

第 67 题

以下哪一项是选择主成分k数量的合理方法？（n是输入数据的维度mm是输入示例的数量）

A. 选择至少保留99%的方差的k的最小值

B. 选择k，使逼近误差1m∑i=1m||x(i)−xapprox(i)||2 。

C. 选择至少保留1%的方差的k的最小值

D. 选择k为99%的n（即k=0.99∗n四舍五入至最接近的整数）。

第 68 题

假设有人告诉你，他们运行主成分分析的方式是“95%的方差被保留 ” ，什么是与此等价的说法？

A. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≥0.05

B. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≤0.05

C. 1m∑i=1m||x(i)−xapprox(i)||21m∑i=1m||x(i)||2≤0.05

D. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≤0.95

第 69 题

以下哪项陈述是正确的？选择所有正确项

A. 仅给出z(i)和Ureduce ，就没有办法重建x(i)的任何合理的近似。

B. 即使所有的输入特征都在非常相似的尺度上，在运行PCA之前，我们仍然应该执行均值归一化（这样每个特征的均值为零）。

C. PCA易受局部最优解的影响；尝试多次随机初始化可能会有所帮助。

D. 给定输入数据x∈Rn ，仅用满足k≤n的k值运行PCA是有意义的（特别是，用k=n运行PCA是可能的，但没有帮助，k>n没有意义）

第 70 题

以下哪项是PCA的推荐应用？选择所有正确项

A. 作为线性回归的替代：对于大多数模型应用，PCA和线性回归给出了基本相似的结果。

B. 数据压缩：减少数据的维数，从而减少占用的内存/磁盘空间。

C. 数据可视化：获取二维数据，并在二维中找到不同的绘制方法（使用k=2）。

D. 数据压缩：减少输入数据x(i)的维数，该维数将用于监督学习算法（即，使用PCA以使监督学习算法运行更快）。

Week 9 | 1 异常检测

第 71 题

对于下列哪一个问题，异常检测是一个合适的算法？

A. 给定一张脸的图像，确定它是否是某个特定名人的脸。

B. 给定信用卡交易的数据集，识别异常交易，将其标记为可能存在欺诈。

C. 给定信用卡交易的数据，根据购买类型对每个交易进行分类（例如：食物、交通工具、衣服）。

D. 从大量的初级保健患者记录中，找出可能有异常健康状况的个人。

第 72 题

假设您已经训练了一个异常检测系统，当p(x)<ϵ时标记异常，并且您在交叉验证集中发现它有太多的误报（标记太多的东西为异常）。你该怎么办？

A. 增大ϵ

B. 减小ϵ

第 73 题

假设您正在开发一个异常检测系统来捕获飞机发动机中的制造缺陷。你的模型用p(x)=∏j=1np(xj;μj,σj2) 。

有两个特性x1=振动强度，x2=产生的热量，x1,x2的值都在0到1之间（并且严格大于0）。

对于大多数“正常”发动机，你期望x1≈x2。其中一个可疑的异常是，即使不产生太多热量，发动机也会剧烈振动（大x1 ，小x2），即使x1和x2的特定值可能不在其典型值范围之外。

您应该构造哪些特征x3来捕获这些类型的异常：

A. x3=x12×x2

B. x3=x1x2

C. x3=x1+x2

D. x3=x1×x2

第 74 题

以下哪项是正确的？选择所有正确项

A. 如果没有任何标记的数据（或者如果所有数据都有标记y=0），则仍然可以学习p(x) ，但可能更难评估系统或选择一个好的值。

B. 如果你有一个带有许多正例子和许多负例子的训练集，那么异常检测算法的性能可能与有监督的学习算法（如支持向量机）一样好。

C. 如果您正在开发异常检测系统，则无法使用标记的数据来改进您的系统。

D. 在为异常检测系统选择特征时，最好为异常示例寻找具有异常大值或小值的特征。

第 75 题

您有一个一维数据集{x(1),…,x(m)} ，并且希望检测数据集中的异常值。首先绘制数据集，它如下所示：

假设将高斯分布参数μ1μ1和σ21σ12拟合到此数据集。对于μ1,σ12 ，可以得到下列哪个值？

A. μ1=−3,σ12=4

B. μ1=−6,σ12=4

C. μ1=−3,σ12=2

D. μ1=−6,σ12=4

1.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别 4 种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：

A.回归问题

B.二分类问题

C.多分类问题

D.K-means 聚类问题

2.以下哪种技术对于减少数据集的维度会更好

A.删除缺少值太多的列

B.删除数据差异较大的列

C.删除不同数据趋势的列

D.都不是

3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

A.频繁模式挖掘

B.分类和预测

C.数据预处理

D.数据流挖掘

4.下列不是 SVM 核函数的是( )

A.多项式核函数

B.逻辑核函数

C.径向基核函数

D.线性核函数

5.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是

A.单个模型之间有高相关性

B.单个模型之间有低相关性

C.在集成学习中使用“平均权重 ”而不是“投票 ”会比较好

D.单个模型都是用的一个算法

6.‌ 在以下不同的场景中,使用的分析方法不正确的有（）‎

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

7.‍bootstrap 数据的含义是‏

A.有放回的从整体 M 中抽样 m 个特征

B.无放回的从整体 M 中抽样 m 个特征

C.有放回的从整体 N 中抽样 n 个样本

D.无放回的从整体 N 中抽样 n 个样本

8.在逻辑回归中,如果同时加入 L1 和 L2 范数,不会产生什么效果‌

A.以做特征选择,并在一定程度上防止过拟合

B.能解决维度灾难问题

C.能加快计算速度

D.可以获得更准确的结果

9.‌ 对于在原空间中线性不可分问题，支持向量机（）。‏

A.在原空间中寻找非线性函数的划分数据

B.无法处理

C.在原空间中寻找线性函数划分数据

D.将数据映射到核空间中

10.‌ 回归问题和分类问题的区别是？

A.回归问题有标签，分类问题没有

B.回归问题输出值是离散的，分类问题输出值是连续的

C.回归问题输出值是连续的，分类问题输出值是离散的

D.回归问题与分类问题在输入属性值上要求不同

11.‌ 以下关于降维的说法不正确的是？‎

A.降维是将训练样本从高维空间转换到低维空间

B.降维不会对数据产生损伤

C.通过降维可以更有效地发掘有意义的数据结构

D.降维将有助于实现数据可视化

12.‌ 向量 x=[1,2,3,4,-9,0]的 L1 范数是多少？‌

A.1

B.19

C.6

13.‍ 假设 X 和 Y 都服从正态分布，那么 P(X<5,Y<0)就是一个（），表示 X<5,Y<0 两个条件同时成立的概率，即两个事件共同发生的概率。‍

A.先验概率

B.后验概率

C.联合概率

D.以上说法都不对

14.‌ 假设会开车的本科生比例是 15% ，会开车的研究生比例是 23% 。若在某大学研究生占学生比例是 20% ，则会开车的学生是研究生的概率是多少？

‎A.80%

B.16.6%

C.23%

D.27.71%

15.‏ 假设有 100 张照片，其中，猫的照片有 60 张，狗的照片是 40 张。

‏ 识别结果：TP=40 ，FN=20 ，FP=10 ，TN=30 ，则可以得到：( )。

A.Accuracy=0.8

B.Precision=0.8

C.Recall=0.8

D.以上都不对

16.以下关于训练集、验证集和测试集说法不正确的是( ) 。