机器学习期末复习题

时间2025-09-19 11:27:29分类IT科技浏览4653

导读：1.以下哪项不属于知识发现的过程？( D ...

1.以下哪项不属于知识发现的过程？( D)

A 、数据清理

B 、数据挖掘

C、知识可视化表达

D 、数据测试

2.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度（ D ）,并将这些用户喜欢的项推荐给有相似兴趣的用户。

A. 相似

相同

C 、推荐

D. 预测

3.以下哪个不是常见的属性类型？（ C）

A 、标称属性

B 、数值属性

C 、高维属性

D 、序数属性

4.以下哪个度量属于数据散度的描述？（C ）

A 、均值

B 、中位数

C 、标准差

D、众数

5.以下哪个度量不属于数据中心趋势度描述？（D ）

A 、均值

B 、中位数

C、众数

D 、四分位数

6.对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务？( C)

A 、频繁模式挖掘

B 、分类和预测

C 、数据预处理

D 、噪声检测

7.聚类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？(C )

A 、K-Means

B 、DBSCAN

C 、SVM

D 、EM

8.关于Anconda组件的说法中，下列描述错误的是（B）。

A、Anaconda Prompt是Anaconda自带的命令行

B 、Jupyter Notebook是基于客户端的交互式计算环境，可以编辑易于人们阅读的文档，用于展示数据分析的过程

C 、Spyder是一个使用Python语言、跨平台的、科学运算集成开发环境

D 、Anaconda Navigator是用于管理工具包和环境的图形用户界面，后续涉及的众多管理命令也可以在Navigator中手动实现

Jupyter Notebook是基于Web的交互式计算环境，可以编辑易于人们阅读的文档，用于展示数据分析的过程

9.关于Anaconda的组件中，可以编辑文档且展示数据分析过程的是（ D）。

A、 Anaconda Navigator

B 、Anaconda Prompt

C 、Spyder

D 、Jupyter Notebook

Jupyter Notebook可以重现整个分析过程，并将说明文字、代码、图表、公式和结论都整合在一个文档中

10.Matplotlib主要是用哪种语言编写的?（A ）

正确回答

A 、Python

B 、java

C 、C++

D、C

11.下列选项中，用于搭接数据仓库和保证数据质量的是（ B）。

A 、数据收集

B 、数据处理

C、数据分析

D 、数据展现

12.下列选项中，（A）是基于Web的交互式计算环境，可以编辑易于人们阅读的文档，用于展示数据分析的过程。

A 、Jupyter Notebook

B、Anconda Navigator

C 、Anconda Prompt

D 、Spyder

13.下列选项中，不属于ndarray对象属性的是（D ）。

A 、shape

B 、dtype

C 、ndim

D 、map

14.请阅读下面一段程序：

import numpy as np

np.arange(1, 10, 3)

运行程序，最终执行的结果是（B ）。

A 、array([1, 4, 7, 10])

B 、array([1, 4, 7])

C 、array([2, 5, 8])

D、array([3, 6, 9])

15.下列关于ndarray对象描述正确的是（B ）。

A 、ndarray对象中可以存储不同类型的元素

B 、ndarray对象中存储元素的类型必须是相同的

C、ndarray对象不支持广播操作

D 、ndarray对象不具备矢量运算能力

根据ndarry的特点可知，该对象中元素的类型必须是相同的

16.关于ndarray对象属性，下列描述错误的是（C ）。

A 、ndim属性表示数组轴的个数

B、shape属性表示每个维度上数组的大小

C 、size属性表示数组元素的总个数，等于shape属性元组元素的和

D 、dtype属性表示数组中元素类型的对象

size属性表示数组元素的总个数，等于shape属性元组元素的乘积

17.关于创建ndarray对象。下列描述错误的是（ A）。

A 、使用list()函数可以创建一个ndarray对象

B 、通过ones()函数创建元素值都为1的数组

C 、ndarray对象可以使用array()函数创建

D 、通过zeros()函数创建元素值都是0的数组

list()函数不可以创建一个ndarry对象，不过可以将一个列表做为参数传入array()函数中创建一个ndarray对象

18.下列关于ndarray对象索引的描述错误的是（ D）。

A 、ndarray对象中的元素可以通过索引和切片来访问和修改

B 、花式索引是将整数数组或列表进行索引，然后将数组或列表中的每个元素作为下标进行取值

C 、布尔索引是将一个布尔数组做为数组索引，返回的数据是布尔数组中True对应位置的值

D、ndarray对象的多维数组索引和切片的使用方式与列表的使用方式完全相同

例如想要获取二维数组中的某个数，需要使用“arr[x ，y] ”形式来获取

下列的数组统计计算中，用于计算数组中最大值的方法是（ A）。

A 、max

B 、maximum

C、min

D 、maximal

20.请阅读下列一段示例程序：

import numpy as np

arr1 = np.array([[0], [1], [2]])

arr2 = np.array([1, 2])

result = arr1 + arr2

print(result.shape)

运行上述程序，那么最终输出的结果为（A ）。

A 、(3, 2)

B、(2, 3)

C 、(3, 0)

D 、(2, 0)

21.下列关于数组运算的描述错误的是（D ）。

A 、在NumPy中，大小相等的数组之间的任何计算都会应用到元素级

B 、广播机制表示对数组进行扩展，使数组的shape属性值一样

C 、标量运算会产生一个与数组具有相同数量的行和列的新矩阵，其原始矩阵的每个元素都被相加、相减、相乘或者相除

D 、数组不支持算术运算符与标量之间的运算

数组支持算术运算符与标量之间的运算

22.请阅读下列一段示例程序：

arr2d = np.array([[11, 20, 5],[21, 15, 26],[17, 8, 19]])

arr2d[0:2, 0:2]

运行上述程序，它最终执行的结果为（ A）。

A 、array([[11, 20],[21, 15]])

B、array([11, 20])

C 、array([21, 15])

D 、array([11, 21])

23.请阅读下列一段程序：

arr = np.arange(12).reshape(3, 4)

arr.shape

运行上述程序，它最终执行的结果为（C ）。

A、3

B 、4

C 、(3, 4)

D、(1, 2)

24.请阅读下面一段程序：

arr2d = np.empty((4, 4))

for i in range(4):

arr2d[i] = np.arange(i, i + 4)

arr2d[[0,4],[3,1]]

执行上述程序，它最终输出的结果为（B ）。

A 、array([3., 4.])

B 、程序抛出IndexError异常

C 、array([3., 5.])

D 、array([4., 4.])

25.已知，有如下一个二维数组：

arr2d = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])

如果希望获取元素5 ，则可以使用（ A）实现。

A 、arr2d[1, 1]

B 、arr2d[1]

C 、arr2d[2]

D 、arr2d[1, 0]

26.请看如下代码：

import numpy as np

arr = np.array([[6, 2, 7], [3, 6, 2], [4, 3, 2]]

arr.sort()

arr

对代码中的NumPy数组执行sort()方法结果正确的是（A ）。

A 、[[2 6 7] [2 3 6]]

B、[[2 6 7] [6 3 2]]

C 、[[7 6 2] [6 3 2]]

D 、[[7 6 2] [2 3 6]]

27.在创建ndarray对象时，可以使用（ A）参数来指定元素类型。

A、dtype

B 、dtypes

C 、type

D、types

28.要想创建一个3 * 4的数组，下列选项正确的是（A ）。

A 、np.arange(12).reshape(4, 3)

B 、np.arange(12).reshape(3, 4)

C 、np.arange(7).reshape(4, 3)

D 、np.arange(7).reshape(3, 4)

29.在NumPy通用函数中，用于计算元素级最大值的函数是（B ）。

A 、max

B 、maximum

C 、min

D 、maximal

30.下列函数中，用于计算整数的绝对值的是（ C）。

A 、square()

B、sqrt()

C 、abs()

D 、floor()

31.关于Series结构，下列描述正确的是（ B）。

A、Series是一个类似于二维数组的对象

B 、Series由一组数据和与之相关的索引两部分构成

C 、Series只能保存整数和字符串类型的数据

D、Series的索引默认是从1开始

32.请阅读下面一段程序：

import pandas as pd

ser_obj = pd.Series(range(1, 6), index=[5, 3, 1, 3, 2])

print(ser_obj)

执行上述程序后，最终输出的结果为（B ）。

A 、a 3.0d 2.0c 1.0b NaN

B 、a 3.0b NaNc 1.0d 2.0

C 、程序出现异常

D 、c 1d 2a 3

33.下列关于Pandas库的说法中正确的是（ C）。

A 、Pandas中只有两种数据结构

B 、Pandas不支持读取文本数据

C 、Pandas是在NumPy基础上建立的新程序库

D 、Pandas中Series和DataFrame可以解决数据分析中一切的问题

除了书中介绍的两种常见数据结构，Pandas中还有另一种数据结构Panel

34.关于Pandas中数据排序，下列说法正确的是（A）。

A 、即可以按照行索引排序，也可以按照列索引排序

B、sort_index()方法表示按照值进行排序

C 、sort_values()方法表示按照索引进行排序

D 、默认情况下，sort_index()方法按照降序排列

35.Pandas在执行算术运算时，没有对齐的位置会使用（ B）进行补齐。

A、Null

B 、0

C 、NaN

D、null_values

36.下列选项中，不能创建一个Series对象的是（D ）。

A 、ser_obj = pd.Series([1, 2, 3, 4, 5])

B 、ser_obj = pd.Series({2001: 17.8, 2002: 20.1, 2003: 16.5})

C 、ser_obj = pd.Series((1,2,3,4))

D 、ser_obj = pd.Series(1,2)

37.关于Pandas数据读写的说法中，下列描述错误的是（A）。

A 、read_csv()能够读取所有文本数据

B 、read_sql()可以读取数据库中的数据

C 、to_csv()能够将结构化数据写入到csv文件中

D 、to_excel()能够将结构化数据写入到excel文件中

38.下列关于DataFrame说法正确的是（C ）。

A 、DataFrame结构是由索引和数据组成

B、DataFrame的行索引位于最右侧

C 、创建一个DataFrame对象时需要指定索引

D 、DataFrame每列的数据类型必须是相同的

39.请阅读下面一段程序

import pandas as pd

ser_obj = pd.Series(range(1, 6), index=[5, 3, 0,4, 2])

print(ser_obj.sort_index())

执行上述程序后，最终输出的结果是（ B）。

A、5 13 20 34 42 5

B 、0 32 53 24 45 1

C 、5 14 43 22 50 3

D、2 54 40 33 25 1

40.下列选项中，用于删除缺失值的方法是（C ）。

A 、isnull()

B 、delete()

C 、dropna()

D 、fillna()

isnull方法用于检测，当返回结果中有True时，表示有重复的数据；fillna方法用于填充缺失数据。

41.关于异常值的说法，下列选项中描述错误的是（A）。

A 、异常值是指样本中明显偏离其余观测值的个别值

B 、可以使用3σ原则检测异常值

C 、可以使用Pandas中的箱线图检测异常值

D 、异常值可以使用其它的值来替换

异常数据并不一定是数据错误，所以会根据实际情况下选择删除或保留。

42.下列关于缺失值检测的说法中，正确的是（B）。

A 、null()和notnull()可以对缺失值进行处理

B、dropna()方法既可以删除观测记录，也可以删除特征

C 、fillna()方法中用来替换缺失值的值只能是DataFrame对象

D 、Pandas库中的interpolate模块包含了多种插值方法

43.下列选项中，关于fillna()方法描述正确的是（ D）。

A、fillna()方法只能填充替换值为NaN的数据

B 、只支持前向填充方式

C 、默认可支持填充的最大数量为1

D、fillna()方法可以填充替换值为NaN和None的数据

44.下列选项中，关于drop_duplicates()方法描述错误的是（A ）。

A 、仅支持单一特征数据的去重

B 、仅对Series和DataFrame对象有效

C 、数据去重时默认保留第一个数据

D 、该方法不会改变原始数据排列

45.关于数据重塑的说法中，下列选项描述错误的是（C ）。

A 、数据重塑可以将DataFrame转换为Series

B 、stack()方法可以将列索引转换为行索引

C 、对一个DataFrame使用stack()方法后返回的一定是一个Series

D 、unstack()方法可以将行索引转换为列索引

当一个DataFrame具有层次索引时，使用stack()方法会返回一个DataFrame对象。

46.下列选项中，关于dropna()方法描述正确的是（ C）。

A 、dropna()方法只会删除值为NaN的数据

B、dropna()方法不会删除值为None的数据

C 、dropna()方法会删除值为None和NaN的数据

D 、dropna()方法只会检测缺失数据和空值

dropna()默认删除None或NaN，但是可以指定参数，对轴进行删除。

47.请阅读下面的程序：

from pandas import Series

import pandas as pd

from numpy import NaN

series_obj = Series([2, 1, NaN])

print(pd.isnull(series_obj))

执行上述程序后，最终输出的结果为（A ）。

A、0 False1 False2 True

B 、0 True1 True2 False

C 、0 False1 False2 False

D、0 True1 True2 True

48.关于哑变量的说法中，下列选项描述错误的是（D ）。

A 、哑变量是人为虚设的变量

B 、哑变量在转换成指标矩阵后，其值通常为0或1

C 、Pnadas中get_dummies()函数可以对类别进行哑变量处理

D 、哑变量的使用没有实际意义

49.下列关于数据预处理的说法中，描述不正确的是（D ）。

A 、数据清洗的目的是为了提高数据质量

B 、异常值不一定要删除

C 、通过drop_duplicates()方法可以删除重复数据

D 、concat()函数可以根据一个或多个键将不同的DataFrame进行合并

concat()函数可以沿着一条轴将多个对象进行堆叠。

50.关于预处理的说法中，下列选项中描述不正确是（D ）。

A 、concat()函数可以沿着一条轴将多个对象进行堆叠

B、merge()函数可以根据一个或多个键将不同的DataFrame进行合并

C 、可以使用rename()方法对索引进行重命名操作

D 、unstack()方法可以将列索引旋转为行索引

unstack()方法可以将行索引旋转为列索引。

51.下列函数中，用于沿着轴方向堆叠Pandas对象的是（A）。

A、concat()

B 、join()

C 、merge()

D、combine_first()

52.机器学习在自然语言处理领域的应用不包括（ C）。

A 、问答系统

B 、信息收取

C 、病理分析

D 、实时翻译

53.以下哪个步骤将原始数据进行变换、变量相关性、标准化等任务(C ) 。

A 、部署

B 、业务需求分析

C 、数据预处理

D、结果评估

54.数据预处理对机器学习是很重要的,下面说法正确的是( A) 。

A 、数据预处理的效果直接决定了机器学习的结果质量

B 、数据噪声对神经网络的训练没什么影响

C、对于有问题的数据都直接删除即可

D 、预处理不需要花费大量的时间

55.有关机器学习工程师下面说法正确的是( C) 。

A 、不需要了解一定的相关业务知识

B、不需要熟悉数据的提取和预处理

C 、需要一定的数据分析实际项目训练

D 、培训后就能胜任实际数据分析

56.移动运营商对客户进行细分,设计套餐和营销活动可以使用下面哪种机器学习方法(C ) 。

A 、贝叶斯分类器

B 、关联方法

C 、聚类算法

D 、多层前馈网络

57.以下哪个步骤不是机器学习所需的预处理工作(D ) 。

A 、数值属性的标准化

B 、变量相关性分析

C 、异常值分析

D、与用户讨论分析需求

58.以下有关机器学习理解不正确的是 (A )。

A 、查询大量的操作数据去发现新的信息

B 、从大量的业务数据中分析有兴趣的新颖知识辅助决策的过程

C、机器学习的结果不一定能辅助决策

D 、需要借助统计学或机器学习的一些算法

59.移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适 (D ) 。

A 、一元线性回归分析

B、关联方法

C 、聚类方法

D 、多层前馈网络

60.电影投资金额和电影收入之间的关系可以用一个一元线性回归方程来表示，下列说法正确的是（ C）。

A 、投资越多收入越少

B 、投资越少收入越多

C 、投资越多收入越多

D 、投资和收入的关系不确定

61.特征工程不包括（B ）。

A 、特征构建

B 、特征合并

C 、特征选择

D、特征提取

62.分析营销投入与销售收入的关系可以使用下面哪种数据挖掘方法( B) 。

A 、关联分析

B 、回归分析

C、聚类方法

D 、推荐算法

63.下面哪个回归分析的说法是正确的(D ) 。

A 、回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法

B、回归分析不需要样本训练

C 、不可以预测非数据型属性的类别

D 、非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数

64.对于非线性回归问题,以下说法错误的是哪个( A)。

A 、可以分别求单个自变量与因变量的回归方程,然后简单求这些方程的加权和

B 、非线性回归方程的系数需要把其转化为线性回归方程才方便求解

C 、非线性回归模型的检验也可以使用R2

D 、Logistic回归是一种典型的广义线性回归模型

65.有关回归模型的系数,以下说法错误的是哪个(B ) 。

A 、一元线性回归模型的系数可以使用最小二乘法求得

B 、多元回归模型的系数可以使用梯度下降法求得

C 、一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小

D、回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的关系能够合理拟合

66.下面关于主成分分析PCA的描述中错误的是(D ) 。

A 、PCA是从原空间中顺序找一组相互正交的坐标轴

B 、原始数据中方差最大的方向是第一个坐标轴

C、基于特征值分解协方差矩阵实现PCA算法

D 、奇异值分解只能适用于指定维数的矩阵分解

67.下面关于奇异值分解(SVD)的描述中错误的是 (A ) 。

A 、奇异值分解就是把一个线性变换分解成两个线性变换

B、奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关

C 、SVD是对PCA的改进,其计算成本更低,相同之处是两者的目标都是为了降维

D 、奇异值不仅可以应用在数据压缩上，还可以对图像去噪

68.下面有关线性判别分析错误的说法是哪个( B) 。

A 、通过对原始的数据进行线性变换,使得不同类的样本尽量分开

B 、线性判别分析中线性变换可以使同类样本的方差变大

C 、线性变换可以使不同类别样本的距离加大

D 、提高不同类样本的可分性

69.以下有关可视化认识错误的是哪个(A ) 。

A 、可视化是简单地把原始的数据用图的形式展示出来的方法

B 、可视化可以作为数据预处理的一种方法,找出其中的噪声

C 、可视化本身是一种数据分析方法,使用图表把数据中隐藏的规律展示出来

D、通过数据的可视化,可以促进数据分析人员对数据的认识和规律发现

70.下面有关可视化原理的说法,错误的是哪个( D) 。

A 、可视化主要是为满足人类决策者对视觉信息的敏感性

B 、可视化分析的方法论基础是视觉隐喻,可以对数据进行一定的抽象表示

C、高维数据可视化需要对数据进行变换,抽取有效特征,从而降低维度

D 、饼图可分析数据变化的趋势

71.Anconda是完全免费的。（√）

72.Jupyter Notebook可以将文件保存为ipynb格式。（√）

Anconda不支持Python2.x版本。（√）

Anconda支持Python2.6 、2.7、3.4 、3.5等版本，并可以自由切换

74.Seaborn是Python中基于Matplotlib的数据可视化工具，它提供了很多高层封装的函数。（√）

75.Python是一门胶水语言，可以轻松地操作其它语言编写的库。（√）

76.使用pip命令也可以查看Anconda安装的包。（√）

77.Jupyter Notebook的优点是可以重现整个分析过程，并将说明文字、代码、图表、公式和结论都整合在一个文档中。（√）

78.只要当前的系统中安装了Anconda ，则默认就已经拥有了Jupyter Notebook ，不需要再另行下载和安装。（√）

79.如果要卸载指定环境中的包，则直接使用remove命令移除即可。（√）

80.Jupyter Notebook可以使用命令行方式打开。（√）

81.Numpy是Python开源的数值计算扩展工具。（√）

82.Pandas是一个基于NumPy的数据分析包，它是为了解决数据分析任务而创建的。（√）

83.Jupyter Notebook可以使用Markdown语法（√）

84.使用Anconda进行开发，可以有效的解决包配置与包冲突的问题。（√）

85.conda是一个在Windows 、Mac OS 、和Linux上运行的开源软件包管理系统和环境管理系统。（√）

如果两个数组的形状不同，则它们是无法执行算术运算的。（×）

当数组满足某一维度等长或满足其中一个数组为一维数组时，便可以通过广播机制进行运算。

ndarray对象的数据类型可以通过type()方法进行转换。（×）

ndarray对象的数据类型可以通astype()方法进行转换

88.数组使用切片和索引的方式与列表完全一样。（×）

89.通过zeros()函数创建的数组中元素值都是0 。（√）

90.ndarray对象中存储元素的类型必须是相同的。（√）

91.如果希望创建一个数组，则只能用array()函数实现。（×）

92.NumPy的数组排序默认是从小到大。（√）

93.通用函数会对数组中的每一个元素都进行操作。（×）

94.大小相等的数组之间的任何算术运算都会将运算应用到元素级。（√）

95.sort()方法可以对任何轴上的数据进行排序（√）

96.NumPy支持比Python更多的数据类型。（√）

假设当前有一个3行3列的ndarray数组，如果想要获取第3行第2列的元素，可以使用ndarray[3,2]。（×）

索引从0开始计数

98.NumPy的random模块比Python的random模块功能更多。（√）

99.NumPy数组不需要循环遍历，即可对每个元素执行批量的算术运算操作。（√）

100.创建数组时可以不指定数据的类型。（√）

101.在DataFrame中每列的数据都可以看做是一个Series对象。（√）

102.DataFrame的结构是由索引和数据组成的。（√）

103.Series可以保存任何数据类型。（√）

read_html()函数可以读取网页中所有的数据。（×）

read_html()方法只能读取网页中table标签中的数据

105.层次化索引可以交换分层顺序。（√）

Pandas中的索引对象是可以修改的。（×）

pandas中的索引对象是不可以修改的

107.Pandas既可以按照索引排序也可以按照数据排序。（√）

108.在操作DataFrame对象时，可以通过指定索引名的方式获取数据。（√）

109.Series对象可以具有多层索引结构。（×）

110.Series是一个类似于一维数组的对象。（√）

111.Series和DataFrame都支持切片操作。（√）

112.Pandas只有Series和DataFrame两种数据结构。（×）

Pandas有Series 、DataFrame 、Panel三种数据结构

113.fillna()方法处理缺失数据时可以使用Series对象填充，但不可以使用DataFrame对象填充。（×）

114.join()方法可以使用左连接和右连接两种方式连接数据。（√）

115.具有多层索引的DataFrame对象经过stack()重塑后，返回的是一个Series对象。（×）

116.在箱形图中超出上界和下界的值称为异常值。（√）

117.使用concat()函数合并数据时，可以通过左连接和右连接这两种方式连接。（×）

118.drop_duplicated()方法可以删除重复值。（×）

119.通过merge()函数合并数据时可以指定多个键。（√）

120.dropna()方法可以删除数据中所有的缺失值。（√）

121.使用merge()函数进行数据合并时，不需要指定合并键。（×）

122.rename()方法可以重命名索引名。（√）

123.缺失数据是人为有意造成的。（×）

124.机器学习是人工智能里面一个非常重要的技术，深度学习是机器学习里面的一种方法。（√）

125.泡泡图和散点图都可以表示三维数据之间的关系。（×）

126.Matplotlib是一个用在 Python 中绘制数组的3D图形库。（×）

Matplotlib是一个用在 Python 中绘制数组的2D 图形库。

127.下列属于有监督算法的是（ACD ）

A 、决策树

B、K-均值

C 、贝叶斯网路

D 、SVM

128.对于机器学习中的原始数据,存在的问题可能有( ABCD) 。

A、错误值

B 、重复

C 、异常值

D、不完整

129.下列哪些分析需要机器学习(AC )。

A 、预测移动运营商用户未来使用的网络流量

B 、比较不同移动运营商用户对漫游业务的使用量

C 、寻找移动运营商用户对某类套餐使用的潜在客户

D 、统计移动运营商的用户在某段时间对短信的使用数量

130.下列关于PCA和LDA的描述正确是（ ACD）。

A 、PCA和LDA都可对高维数据进行降维

B 、PCA可以保留类的信息

C 、LDA可以保留类的信息

D 、PCA一般选择方差大的方向进行投影

有关决策树的分类方法正确的是(B )

A.决策树不能确定对决策属性起重要影响的变量

B.决策树可以用于发现多种样本的特征

C.决策树可用于确定相似的样本

D.决策树结构越复杂越有效

有关决策树的说法哪个是错误的( C)

A.可以转化为决策规则

B.对新样本起到分类预测的作用

C.决策树的深度越大越好

D.决策树的算法和神经网络的原理不一样

有关k-means下列说法正确的是(B )

A.可以确定样本属性的重要性

B.可以处理规则分布数据的聚类

C.适合任意数据集的分组

D.聚类的结果与初始选择的假设聚类中心无关

有监督的学习和无监督的学习的根本区别在于( B)

A.学习过程是否需要人工干预

B.学习样本是否需要人工标记

C.学习结果是否需要人工解释

D.学习参数是否需要人工设置

关于集成学习算法的说法正确的是(D )

A.一种并行的算法框架

B.一种串行的算法框架

C.一类全新的数据挖掘算法

D.一类将已有算法进行整合的算法

下列关于聚类分析的度量标准轮廓系数的描述不准确的是（C ）

A.轮廓系数的最大值是1

B.一个簇整体的轮廓系数越大，说明聚类的效果越好

C.轮廓系数不可能出现负数

D.聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大

下列关于基于层次的聚类方法的描述不正确的是（ C）

A.按照层次聚类的过程分为自底向上和自顶向下2大类方法

B.如果一直重复聚类过程的话，所有的样品最后可以归为一类

C.自底向上的聚类方法是一种分裂聚类方法

D.无论类间距离采用哪种计算方法，最终都是将最小距离的2个簇合并

K-Means算法中的初始中心点( D)

A.可随意设置

B.必须在每个簇的真实中心点的附近

C.必须足够分散

D.直接影响算法的收敛结果

以下关于神经网络的描述正确的说法是( C)

A.神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系

B.不能确定输入属性的重要性

C.训练神经网络是一个很耗时的过程

D.只能用于分类

在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么(C )

A.根据人工经验随机赋值

B.搜索所有权重和偏差的组合,直到得到最佳值

C.赋予一个初始值,然后迭代更新权重,直至代价函数取得极小

D.以上都不正确

朴素贝叶斯分类器的朴素之处在于( D)

A.只能处理低维属性

B.只能处理离散型属性

C.分类效果一般

D.属性之间的条件独立性假设

线性SVM和一般线性分类器的区别主要是（A ）

A.是否进行了空间映射

B.是否确保间隔最大化

C.是否能处理线性不可分问题

D.训练误差通常较低

支持向量（support vectors）指的是（B ）

A.对原始数据进行采样得到的样本点

B.决定分类面可以平移的范围的数据点

C.位于分类面上的点

D.能够被正确分类的数据点

对于图像识别问题（比如识别照片中的猫），（ C）神经网络模型更适合解决这类问题。

A.感知机

B.循环神经网络

C.卷积神经网络

D.多层感知机

有关推荐算系统的应用背景说法正确的是（ D）

A.帮忙用户找出不需要的信息

B.查找用户喜欢的商品

C.一种销售的方法

D.分析用户的兴趣预测用户的需求

未来房价的预测，这种属于数据挖掘的哪类问题?( D )

A.分类

B.聚类

C.关联规则

D.回归分析

OLAP技术的核心是:（ D）

A. 在线性

B. 对用户的快速响应

C. 互操作性

D. 多维分析

pandas中，Series使用切片查询代码如下：

data = [1,2,3,4,5]

res = pd.Series(data,index=["a","b","c","d","e"])

print(res[3])

输出结果为：( A )

A．4

B. 3

C. c

D. d

协同过滤算法解决的是数据挖掘中的哪类问题？（ C ）

A.分类问题

B.聚类问题

C.推荐问题

D.自然语言处理问题

如果我使用数据集的全部特征并且能够达到100%的准确率，但在新数据集上仅能达到70%左右，这说明( C)

A. 欠拟合

B. 正常情况

C. 过拟合

D. 模型选择错误

假设已经使用python第三方库sklearn创建线性模型实例linear_model ，则linear_model.coef中，属性coef的作用是（ C ）

A. sigmoid函数

B. 激活函数

C. 模型的参数

D. 以上都不是

以下对k-means聚类算法解释正确的是( C )

A. 能自动识别类的个数,随即挑选初始点为中心点计算

B. 能自动识别类的个数,不是随即挑选初始点为中心点计算

C. 不能自动识别类的个数,随即挑选初始点为中心点计算

D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算

推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于 ( D ) ,推测客户将来可能的购买行为。

A. 客户的朋友

B. 客户的个人信息

C. 客户的兴趣爱好

D. 客户过去的购买行为和购买记录

发现关联规则的算法通常要经过以下三个步骤：连接数据,作数据准备；给定最小支持度和（D ）,利用数据挖掘工具提供的算法发现关联规则；可视化显示、理解、评估关联规则。

A. 最小兴趣度

B. 最大可信度

C. 最大支持度

D. 最小置信度

下面哪项不是常用的自然语言处理技术：（ D ）

A. 词条化

B. 词性标注

C. 句法分析

D. 交叉验证

Pandas处理缺失值的函数有？（ A ）

A 、fillna()

B 、fit()

C、predict()

D 、iloc()

下图是哪一种算法表示( C ）

A.K-近邻算法

B.贝叶斯

C.一元线性回归

D.多项式回归

常见的分类算法不包括（ A ）

A.线性回归

B.逻辑回归

C.贝叶斯算法

D.K-近邻算法

线性回归能完成的任务是( B )

A.预测离散值

B.预测连续值

C.分类

D.聚类

当分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于什么问题？( C )

A.分类

B.聚类

C.关联规则

D.主成分分析

关于欠拟合（under-fitting），下面哪个说法是正确的？( C )

A.训练误差较大，测试误差较小

B.训练误差较小，测试误差较大

C.训练误差较大，测试误差较大

D.训练误差不变，测试误差较大

将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?( A )

A．MIN(单链)

B．MAX(全链)

C．组平均

D．Ward方法

在以下不同的场景中,使用的分析方法不正确的有( B )

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

设X={1 ，2，3}是频繁项集，则可由X产生( C )个关联规则。

A.4

B.5

C.6

D.7

交叉验证如果设置K=5 ，会训练几次？（ C ）

A.1

B.3

C.5

D.6

我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以( C )

A.增加树的深度

B.增加学习率(learning rate)

C.减少树的深度

D.减少树的数量

以下不属于影响聚类算法结果的主要因素有(A )

A. 已知类别的样本质量

B. 分类准则

C. 特征选取

D. 模式相似性测度

图像数据分析的常用方法不包括（ D）

A. 图像变换

B. 图像编码和压缩

C. 图像增强和复原

D. 图像数据采集

一般，KNN最近邻方法在（B）的情况下效果较好？

A. 样本较多但典型性不好

B. 样本较少但典型性好

C. 样本呈团状分布

D. 样本呈链状分布

下列代码实现的功能是：(C)

>>> from sklearn.naive_bayes import GaussianNB

>>> gnb = GaussianNB()

>>>y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)

A. 创建高斯朴素贝叶斯模型并对模型进行训练

B. 创建高斯朴素贝叶斯模型并对模型进行预测

C. 创建高斯朴素贝叶斯模型并对模型进行训练和预测

D. 创建高斯朴素贝叶斯模型并对模型进行训练和评测

决策树中不包含以下哪种节点？( C)

A. 根节点

B. 内部节点

C. 外部节点

D. 叶节点

通过聚集多个分类器的预测来提高分类准确率的技术称为（A）

A. 集成(ensemble)

B. 聚集(aggregate)

C. 合并(combination)

D. 投票(voting)

以下的说法哪些是正确的？(C)

1 一个机器学习模型如果能得到很高的准确率，则说明这是个好的分类器。

2 如果增加一个模型的复杂度，测试错误总会增加。

3 如果增加一个模型的复杂度，训练错误总会增加。

A. 1

B. 2

C. 3

D. 1 and 3

以下场景中，属于机器学习的是？(D)

A. 让机器检测地震活动

B. 电脑运行仿生程序

C. 电脑作为计算器使用

D. 通过对不同阶段的西瓜照片进行识别，让机器能辨别熟西瓜

对比于机器学习程序与传统的计算机程序，下列说法不正确的是：(C)

A. 都属于计算机程序

B. 输出结果不同

C. 输出结果相同

D. 经验总结问题处理上传统程序效果更好

以下哪个语句可以实现加载scikit-learn模块的iris数据集：(B)

A. iris = datasets.read_iris()

B. iris = datasets.load_iris()

C. iris = datasets.iris()

D. iris = datasets.