机器学习题库综合提取版
机器学习题库综合提取版
根据原复习范围、题库导出文件和新增手机图片范围综合整理。
使用说明:前半部分为题库原题提取,保留原题号、题干、选项、答案和解析;后半部分为图片范围中题库缺失或覆盖不充分的补充题,便于考前背诵和答题。
识别说明:手机图片中部分文字被反光和边框遮挡,本文按可辨识内容整合。其中“PACA”按 PCA 处理,“AKSAISZ 大小”按 batch size 大小处理。
一、整合后的范围索引
| 模块 | 覆盖考点 | 题库原题号 | 图片补充点 |
|---|---|---|---|
| 机器学习任务类型、监督学习与算法选择 | 覆盖分类、回归、二分类、多分类、聚类、监督学习与无监督学习差异,以及算法选择依据。图片中“房价、肿瘤、信用卡、身高体重”等场景也归入本节。 | 1、14、15、16、20、23、25、32、38、39、40、44、45、86、99、102、106、107、133、134、151、197 | 房价/肿瘤/信用卡等任务识别;KNN评价;SVM判断;PCA衡量。 |
| 数据预处理、特征工程、评价指标与交叉验证 | 覆盖数据预处理包含内容、标准化、异常值、缺失值、特征工程、交叉验证、模型评价指标、Accuracy/Precision/Recall等。 | 17、18、21、24、33、42、77、79、90、104、158、345 | 预处理、模型评价、交叉验证、准确率误区。 |
| 降维、PCA、特征空间与高维数据 | 覆盖降维概念、PCA、LDA、SVD、特征提取、平行坐标、高维特征空间与模型复杂度。图片中“PACA”按“PCA”处理。 | 41、48、49、57、59、61、62、63、64、80、84、89、329、330 | PCA是否损失、方差贡献率、特征空间大小。 |
| 过拟合、欠拟合、正则化与模型复杂度 | 覆盖L2正则化、过拟合和欠拟合原因、解决方法、剪枝、提前终止、增加样本、Dropout、模型capacity。 | 34、36、73、76、92、94、96、103、108、119、137、138、257、263、265、329、330 | 过拟合/欠拟合、L2正则化、模型复杂度。 |
| 集成学习、Bootstrap、Bagging、Boosting与随机森林 | 覆盖集成学习原理、基学习器关联性、多样性、Bootstrap采样、随机森林构建过程。 | 93、105、118、119、120、121、122、126、127、128、129、130、131、132、140、141 | 集成学习、随机森林构建、基学习器差异。 |
| 聚类、K-means、层次聚类与DBSCAN | 覆盖K均值概念、K值确定、聚类质量评价、轮廓系数、层次聚类、DBSCAN、图像分割等。 | 142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、168、169、170、171、172、173、177、179、180、181、182、183、184、186、199 | K均值、聚类质量、轮廓系数、层次聚类。 |
| 贝叶斯概率、贝叶斯网络与朴素贝叶斯 | 覆盖先验概率、后验概率、联合概率、条件独立、贝叶斯网络、朴素贝叶斯基本假设和应用。 | 298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322 | 先验/后验/联合概率、朴素贝叶斯基本假设。 |
| 支持向量机SVM、超平面、软间隔与核函数 | 覆盖SVM概念、支持向量、margin、超平面、软间隔、核函数、线性不可分问题和核函数选择。 | 328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348 | SVM是否只能线性、软间隔、核函数。 |
| 梯度下降、神经网络、深度学习与梯度消失 | 覆盖梯度下降迭代过程、是否能找到全局最优、神经网络训练、激活函数、batch size、深度学习与传统机器学习对比。 | 35、251、255、257、259、260、261、262、263、264、265、271、272、273、274、275、276、277、278、282、283、296、297 | 梯度下降类型、全局最优、梯度消失、batch size。 |
| 文本特征、图像分割与NLP拓展题 | 图片中出现“图像特征提取、序列数据模型”等拓展表述,题库中较接近的是文本特征、情感分析、图像分割等题。 | 159、188、189、190、191、195、196、197、198 | 图像分割、文本特征、序列数据模型拓展。 |
一、机器学习任务类型、监督学习与算法选择
匹配范围:覆盖分类、回归、二分类、多分类、聚类、监督学习与无监督学习差异,以及算法选择依据。图片中“房价、肿瘤、信用卡、身高体重”等场景也归入本节。
本节题库原题号:1、14、15、16、20、23、25、32、38、39、40、44、45、86、99、102、106、107、133、134、151、197
1、以下哪种机器学习任务属于无监督学习?
-
A、 图像分类
-
B、 聚类分析
-
C、 情感分析
-
D、 语音识别
答案: B
解析:无监督学习的目标是从未标记数据中发现潜在结构,聚类分析是典型的无监督学习任务。图像分类、情感分析、语音识别均属于监督学习任务。
14、下列属于有监督算法的是( )
-
A、 决策树
-
B、 K-均值
-
C、 贝叶斯网路
-
D、 SVM
答案: ACD
15、机器学习在自然语言处理领域的应用不包括( )。
-
A、 问答系统
-
B、 信息收取
-
C、 病理分析
-
D、 实时翻译
答案: C
16、机器学习是人工智能里面一个非常重要的技术,深度学习是机器学习里面的一种方法。
答案: 正确
20、移动运营商对客户进行细分,设计套餐和营销活动可以使用下面哪种机器学习方法( )。
-
A、 贝叶斯分类器
-
B、 关联方法
-
C、 聚类算法
-
D、 多层前馈网络
答案: C
23、移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适 ( )。
-
A、 一元线性回归分析
-
B、 关联方法
-
C、 聚类方法
-
D、 多层前馈网络
答案: D
25、下列哪些分析需要机器学习( )。
-
A、 预测移动运营商用户未来使用的网络流量
-
B、 比较不同移动运营商用户对漫游业务的使用量
-
C、 寻找移动运营商用户对某类套餐使用的潜在客户
-
D、 统计移动运营商的用户在某段时间对短信的使用数量
答案: AC
32、机器学习能解决哪些问题?每一类使用的常用方法有哪些?举例说明其应用。
答案:
分类:逻辑回归、决策树、 KNN、随机森林、支持向量机、朴素贝叶斯
数字预测:线性回归、 KNN、Gradient Boosting、AdaBoost
无监督学习:聚类、关联分析
强化学习
38、机器学习在自然语言处理领域的应用不包括( )。
-
A、 问答系统
-
B、 信息收取
-
C、 病例分析
-
D、 实时翻译
答案: C
39、下列属于有监督算法的是( )。
-
A、 决策树
-
B、 K-均值
-
C、 贝叶斯网络
-
D、 SVM
答案: ACD
40、电影投资金额和电影收入之间的关系可以用一个一元线性回归方程来表示,下列说法正确的是( )。
-
A、 投资越多收入越少
-
B、 投资越少收入越多
-
C、 投资越多收入越多
-
D、 投资和收入的关系不确定
答案: C
44、分析营销投入与销售收入的关系可以使用下面哪种数据挖掘方法( )。
-
A、 关联分析
-
B、 回归分析
-
C、 聚类方法
-
D、 推荐算法
答案: B
45、下面哪个回归分析的说法是正确的( )。
-
A、 回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法
-
B、 回归分析不需要样本训练
-
C、 不可以预测非数据型属性的类别
-
D、 非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数
答案: D
86、逻辑回归为什么可以预测新样本的类别?举例说明其应用。
答案:
逻辑回归是一种预测分析, 解释因变量与一个或多个自变量之间的关与线性回归不同之处就是它的目标变量有几种类别,所以逻辑回归主要用于解决分类问题,与线性回归相比,它是用概率的方式,预测出来属于某一分类的概率值。如果超过 50%,则属于某一分类。
99、在分类型机器学习过程中,下面有关分类算法的选择说法错误的是( )。
-
A、 算法参数是默认调好的,分析过程不需要修改
-
B、 分类算法的优劣需要通过实验比较才能确定
-
C、 分类算法对数据有一定的要求,一种算法不能解决所有的分类问题
-
D、 分类算法的结果只要训练样本准确度高就可以使用了
答案: AD
102、从历史的样本分析中分析某个应聘者是否能适合某个岗位,以指导招聘人员选拨新员工,需要以下哪种分析( )。
-
A、 分类分析
-
B、 回归分析
-
C、 聚类
-
D、 内容检索
答案: A
106、如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法( )。
-
A、 关联分析
-
B、 线性回归分析
-
C、 聚类分析
-
D、 决策树 类算法
答案: D
107、有监督的学习和无监督的学习的根本区别在于( )。
-
A、 学习过程是否需要人工干预
-
B、 学习样本是否需要人工标记
-
C、 学习结果是否需要人工解释
-
D、 学习参数是否需要人工设置
答案: B
133、分类解决什么问题?
答案:
分类算法是利用训练样本集获得分类函数即分类模型 (分类器),从而实现将数据集中的样本划分到各个类中。
分类模型通过学习训练样本中属性集与类别之间的潜在关系,并以此为依据对新样本属于哪一类进行预测。
134、常用的分类算法包括( )。
-
A、 决策树
-
B、 支持向量机
-
C、 贝叶斯网络
-
D、 神经网络
答案: ABCD
151、有关机器学习算法选择的说法不正确的有( )。
-
A、 每种算法都有其使用范围,因此选择算法需要考虑具体处理的问题
-
B、 判断机器学习算法好坏在数据需求阶段就可以确定
-
C、 在分类前可以先做聚类分析
-
D、 对聚类问题可以任选一种聚类算法
答案: BD
197、下列关于情感分析的说明正确的是( )。
-
A、 常用神经网络来判断情感
-
B、 “他是一个乐于助人的小朋友”,这句话的情感是是负向的
-
C、 情感分析属于分类问题
-
D、 “明天可能会下雪”这句话的情感是正向的
答案: C
二、数据预处理、特征工程、评价指标与交叉验证
匹配范围:覆盖数据预处理包含内容、标准化、异常值、缺失值、特征工程、交叉验证、模型评价指标、Accuracy/Precision/Recall等。
本节题库原题号:17、18、21、24、33、42、77、79、90、104、158、345
17、以下哪个步骤将原始数据进行变换、变量相关性、标准化等任务( )。
-
A、 部署
-
B、 业务需求分析
-
C、 数据预处理
-
D、 结果评估
答案: C
18、数据预处理对机器学习是很重要的,下面说法正确的是( )。
-
A、 数据预处理的效果直接决定了机器学习的结果质量
-
B、 数据噪声对神经网络的训练没什么影响
-
C、 对于有问题的数据都直接删除即可
-
D、 预处理不需要花费大量的时间
答案: A
21、以下哪个步骤不是机器学习所需的预处理工作( )。
-
A、 数值属性的标准化
-
B、 变量相关性分析
-
C、 异常值分析
-
D、 与用户讨论分析需求
答案: D
24、对于机器学习中的原始数据,存在的问题可能有( )。
-
A、 错误值
-
B、 重复
-
C、 异常值
-
D、 不完整
答案: ABCD
33、举例说明机器学习的基本过程,并举例说明基本步骤各有哪些方法。
答案:
定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用
42、特征工程不包括( )。
-
A、 特征构建
-
B、 特征合并
-
C、 特征选择
-
D、 特征提取
答案: B
77、 什么是交叉校验 ?常用的交叉校验方法有哪些?
答案:
在一般情况下将数据集随机切分为训练集、验证集和测试集三部分。
训练集用来训练模型,验证集用于训练过程中模型的验证和选择,如果有多个模型,选择其中最小预测误差的模型,而测试集用于对最终训练完成的模型进行评估。
在实际应用中,数据往往并不充足,此时可以采用交叉验证的方法,将训练集切分成很多份,然后进行组合,以扩大可用训练集的数量,按照样本切分和组合方式。
交叉验证分为以下几种: HoldOut检验、简单交叉检验、k折交叉检验、留一交叉检验。
79、如何评价一个算法的性能?
答案:
不同算法有不同的评价指标。
例如分类算法评价指标有:准确率、准确率、召回率、 F1值、ROC曲线等。
回归模型的评价指标有:平均绝对偏差( MAE)、均方误差(MSE)、R2指标等
90、特征工程不包括( )。
-
A、 特征构建
-
B、 特征合并
-
C、 特征选择
-
D、 特征提取
答案: B
104、有关决策树与特征工程的关系,以下说法错误的是( )。
-
A、 决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法
-
B、 如果要了解影响签署合同快慢的主要因素,可以使用决策树算法
-
C、 决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据
-
D、 决策树获得的特征是区分不同类别的最优特征
答案: D
158、关于数据预处理对聚类分析的影响的错误说法是( )。
-
A、 可能改变数据点之间的位置关系
-
B、 可能改变簇的个数
-
C、 有助于提升聚类质量
-
D、 可能产生不确定影响
答案: C
345、使用支持向量机检测信用卡欺诈的案例中对数据进行的处理包括( )。
-
A、 载入数据
-
B、 分割数据
-
C、 标准化数据
-
D、 处理缺失数据
答案: ABC
解析:
三、降维、PCA、特征空间与高维数据
匹配范围:覆盖降维概念、PCA、LDA、SVD、特征提取、平行坐标、高维特征空间与模型复杂度。图片中“PACA”按“PCA”处理。
本节题库原题号:41、48、49、57、59、61、62、63、64、80、84、89、329、330
41、下列关于PCA和LDA的描述正确是( )。
-
A、 PCA和LDA都可对高维数据进行降维
-
B、 PCA可以保留类的信息
-
C、 LDA可以保留类的信息
-
D、 PCA一般选择方差大的方向进行投影
答案: ACD
48、下面关于主成分分析PCA的描述中错误的是( )。
-
A、 PCA是从原空间中顺序找一组相互正交的坐标轴
-
B、 原始数据中方差最大的方向是第一个坐标轴
-
C、 基于特征值分解协方差矩阵实现PCA算法
-
D、 奇异值分解只能适用于指定维数的矩阵分解
答案: D
49、下面关于奇异值分解(SVD)的描述中错误的是 ( )。
-
A、 奇异值分解就是把一个线性变换分解成两个线性变换
-
B、 奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关
-
C、 SVD是对PCA的改进,其计算成本更低,相同之处是两者的目标都是为了降维
-
D、 奇异值不仅可以应用在数据压缩上,还可以对图像去噪
答案: A
57、适合可视化高维数据的方法是( )。
-
A、 圆饼图
-
B、 散点图
-
C、 平行坐标
-
D、 直方图
答案: C
59、特征选择与特征提取的关系是( )。
-
A、 特征提取包含特征选择
-
B、 特征选择包含特征提取
-
C、 一码事,说法不同而已
-
D、 It is like comparing apples and oranges
答案: A
61、在PCA变换中,应尽量把数据向什么方向投影( )。
-
A、 数据集中的方向
-
B、 数据散布大的方向
-
C、 数据分组特征明显的方向
-
D、 平行于原始坐标轴的方向
答案: B
62、PCA变换中不包含以下哪一种操作( )。
-
A、 去均值
-
B、 矩阵特征值分解
-
C、 属性值标准化
-
D、 坐标变换
答案: C
63、假设样本数大于维数,利用PCA技术,可以把N维数据降到( )。
-
A、 只能到1维
-
B、 只能到N-1维
-
C、 1到N-1维
-
D、 取决于样本的类别数
答案: C
64、如果将PCA应用于带标签的分类数据( )。
-
A、 程序直接崩溃
-
B、 效果杠杠的
-
C、 驴唇不对马嘴
-
D、 视情况而定
答案: D
80、数据降维有哪些常用的方法?
答案:
主成分分析
线性判别分析
奇异值分解
局部线性嵌入
拉普拉斯特征映射
84、特征提取有哪些常用的方法( )。
-
A、 主成分分析
-
B、 独立成分分析
-
C、 线性判别分析
-
D、 线性回归分析
答案: ABC
89、下列关于PCA和LDA的描述正确是( )。
-
A、 PCA和LDA都可对高维数据进行降维
-
B、 PCA可以保留类的信息
-
C、 LDA可以保留类的信息
-
D、 PCA一般选择方差大的方向进行投影
答案: ACD
329、一个分类模型的capacity指的是( )。
-
A、 能够解决几分类问题
-
B、 能解决多大规模的问题
-
C、 能将多少个点分开,不论如何分配标签
-
D、 能达到的精确度
答案: C
330、为什么当两个模型的训练误差相同或接近的时候,通常会选择比较简单的一个( )。
-
A、 复杂模型的测试误差一定较大
-
B、 简单模型的测试误差一定较小
-
C、 在相同置信度条件下,复杂模型的测试误差上界较大
-
D、 只是一种经验,并没有理论依据
答案: C
四、过拟合、欠拟合、正则化与模型复杂度
匹配范围:覆盖L2正则化、过拟合和欠拟合原因、解决方法、剪枝、提前终止、增加样本、Dropout、模型capacity。
本节题库原题号:34、36、73、76、92、94、96、103、108、119、137、138、257、263、265、329、330
34、讨论数据数量和质量对机器学习的影响
答案:
机器学习需要一定数量的数据作为支撑。
数据量过多会耗费更多的计算资源,还可能有不平衡数据集、维度灾难等问题。
数据量过少会导致机器学习的准确率下降,甚至不能完成学习的目标。
数据数量和质量问题会导致过拟合或欠拟合的现象,优秀的数据集对机器学习的结果影响是决定性的
36、讨论目前机器学习应用中存在的主要问题。
答案:
选择什么模型或算法、选择什么优化方法、
如何对数据进行预处理、目标函数是什么、
过拟合与欠拟合的处理、维度爆炸
73、什么是正则化?正则化有什么功能?
答案:
正则化是为了避免过拟合的手段。
正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
76、 如何理解 L0 、 L1 和 L2 正则化 ?
答案:
L0 正则化是通过限制向量中非 0 的元素的个数实现模型优化,用 L0 来正则化一个参数矩阵 W ,目标是使其更稀疏,即 W 中的大部分元素都是 0 。
很明显,如果通过最小化 L0 范数作为罚项,就是寻找最优的稀疏特征项。
L1 正则化是通过对向量中各个元素绝对值之和进行限制,任何的规则化算子,如果在 的地方不可微,并且可以分解为多项式的形式,那么这个规则化算子就可以实现稀疏。
L2 正则化是指向量各元素求平方和然后求平方根,用模最小化来确保 w 的每个元素都很小,都接近于 0 。
92、创建决策树的基本原则就是简单的就是最好的,只要能实现同样的功能,决策树越简单越好。
答案: 正确
94、使用剪枝的方法可以避免决策树发生过拟合的问题,一般是从叶子节点开始合并。
答案: 正确
96、下面有关过拟合的认识错误的是( )。
-
A、 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测样本的准确率也很高
-
B、 减少过拟合的方法可以通过降低决策树的复杂度,例如减少决策树的深度
-
C、 判断模型是否过拟合可以看随着训练的增加,学习到的模型准确度高了,但检测样本的准确率下降
-
D、 分类算法都可能会遇到过拟合现象
答案: A
103、下面有关决策树剪枝的说法错误的是( )。
-
A、 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性
-
B、 决策树剪枝可以放在决策树的构造过程(预剪枝),也可以等决策树模型全部建立后再做(后剪枝)
-
C、 决策树剪枝的依据是看某层某个非叶节点转换成叶节点后,训练样本集的检验准确度是否提升
-
D、 决策树剪枝符合Occam剃刀原理(即机器学习模型越简单越好)
答案: C
108、下列哪一种情况被称为过学习现象( )。
-
A、 在训练集上A优于B,在测试集上A也优于B
-
B、 在训练集上A优于B,在测试集上B优于A
-
C、 相对于分类数据集,决策树过于简单
-
D、 在训练集上决策树的误差很小
答案: B
119、装袋法中每个样本被选中概率相同,所以噪声数据的影响下降,容易受过拟合的影响( )。
答案: 错误
137、 如何减少过拟合?
答案:
解决过拟合问题,一方面要注意数据训练集的质量,选取具有代表性样本的训练样本集。
另一方面要避免决策树过度增长,通过限制树的深度来减少数据中的噪声对于决策树构建的影响,一般可以采取剪枝的方法。
138、在决策树的训练过程中,如果通过剪枝减少过拟合?举例说明。
答案:
剪枝是用来缩小决策树的规模,从而降低最终算法的复杂度并提高预测准确度,包括预剪枝和后剪枝两类。
预剪枝的思路是提前终止决策树的增长,在形成完全拟合训练样本集的决策树之前就停止树的增长,避免决策树规模过大而产生过拟合。
后剪枝策略先让决策树完全生长,之后针对子树进行判断,用叶子结点或者子树中最常用的分支替换子树,以此方式不断改进决策树,直至无法改进为止。
257、使用提前终止的方法可以防止过拟合现象的发生。
答案: 正确
263、通过增加样本数可以减少过拟合的发生,常用的方法有以下几种( )。
-
A、 从数据源采集更多的数据
-
B、 复制原有数据并添加随机噪声
-
C、 重(复)采样
-
D、 根据现有样本估计样本的分布,然后按照此分布再产生一些样本
答案: ABCD
265、下列哪些方法可以用来降低深度学习模型的过拟合问题( )。
-
A、 增加更多的数据
-
B、 提前停止训练
-
C、 Dropout
-
D、 正则化代价函数
答案: ABCD
329、一个分类模型的capacity指的是( )。
-
A、 能够解决几分类问题
-
B、 能解决多大规模的问题
-
C、 能将多少个点分开,不论如何分配标签
-
D、 能达到的精确度
答案: C
330、为什么当两个模型的训练误差相同或接近的时候,通常会选择比较简单的一个( )。
-
A、 复杂模型的测试误差一定较大
-
B、 简单模型的测试误差一定较小
-
C、 在相同置信度条件下,复杂模型的测试误差上界较大
-
D、 只是一种经验,并没有理论依据
答案: C
五、集成学习、Bootstrap、Bagging、Boosting与随机森林
匹配范围:覆盖集成学习原理、基学习器关联性、多样性、Bootstrap采样、随机森林构建过程。
本节题库原题号:93、105、118、119、120、121、122、126、127、128、129、130、131、132、140、141
93、随机森林的2个随机是指( )。
-
A、 样本随机选择
-
B、 决策树的个数随机选择
-
C、 样本属性随机选择
-
D、 决策树的深度随机选择
答案: AC
105、通过聚集多个决策树模型来提高分类准确率的技术称为( )。
-
A、 合并
-
B、 聚集
-
C、 集成
-
D、 加权求和
答案: C
118、装袋法的原理是通过组合多个训练集的分类结果来提升分类效果( )。
答案: 正确
119、装袋法中每个样本被选中概率相同,所以噪声数据的影响下降,容易受过拟合的影响( )。
答案: 错误
120、下列对提升法的描述正确的是( )。
-
A、 每个单独训练样本都会被分配一个相同的初始权重
-
B、 增加分类正确样本的权重,降低分类错误样本的权重来提来分类器的准确率
-
C、 降低分类正确样本的权重,增加分类错误样本的权重来提来分类器的准确率
-
D、 如何组合每一轮产生的分类模型得出预测结果是提升法需要解决的问题
答案: ACD
121、下列关于随机森林的描述正确的是( )。
-
A、 与袋装法采用相同样本抽取方式
-
B、 每次从所有属性中随机抽取t个属性来训练分类器
-
C、 每次从所有样本中选取一定比例的样本来训练分类器
-
D、 可以使用不同的决策树的组合来构建分类模型
答案: ABCD
122、随机森林的2个随机指的是( )。
-
A、 随机选取样本
-
B、 随机选取分类器
-
C、 随机选取权重
-
D、 随机选取属性
答案: AD
126、 集成学习的基本原理是什么 ? 举例说明三种集成学习的应用。
答案:
基本原理:用多种学习方法的组合来获取比原来方法更优的结果,适用于组合的算法是弱学习算法,即学习算法正确率低但集成之后的算法准确率和效率都很高。
举例:
1.装袋法:通过随机采样获取个体弱学习训练集,通过T次随机采样独立训练出T个弱学习器,通过集合策略获得强学习器。
2.随机森林:与装袋法类似获取训练集,但是随机森林所训练出的弱学习器都是决策树,并且在装袋法的随机采样的基础上又添加了特征随机选择。
3.提升法:通过算法集合将弱学习器利用加权的方式进行训练转化为强学习器
127、关于集成学习的说法正确的有( )。
-
A、 团结力量大
-
B、 尺有所短寸有所长
-
C、 赢者通吃
-
D、 一个好汉三个帮
答案: ABD
128、关于集成学习算法的说法正确的是( )。
-
A、 一种并行的算法框架
-
B、 一种串行的算法框架
-
C、 一类全新的数据挖掘算法
-
D、 一类将已有算法进行整合的算法
答案: D
129、以下哪些措施有助于提高基础分类的多样性( )。
-
A、 采用不同的训练集
-
B、 采用不同类型的算法
-
C、 采用强的基础分类器
-
D、 采用不同的训练参数
答案: ABD
130、Bagging的主要特点有( )。
-
A、 各基础分类器并行生成
-
B、 各基础分类器权重相同
-
C、 只需要较少的基础分类器
-
D、 基于Bootstrap采样生成训练集
答案: ABD
131、对Boosting模型的描述正确的是( )。
-
A、 采用串行训练模式
-
B、 基础分类器通常应采用强分类器
-
C、 通过改变训练集进行有针对性的学习
-
D、 基础分类器采用少数服从多数原则进行集成
答案: AC
132、对AdaBoost描述正确的是( )。
-
A、 可以集成出训练误差任意低的分类器
-
B、 基础分类器可以任意弱(准确率高于50%)
-
C、 通过对样本进行加权达到改变训练集的效果
-
D、 被当前基础分类器分错的样本的权重将会减小
答案: AB
140、以随机森林为例,讨论为什么集成学习能否提高分类的性能。
答案:
传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器。
可以通过聚集多个分类器的预测结果提高分类器的分类准确率,这一方法即为集成学习。
该方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。
随机森林算法目标是通过将多个弱学习机(如单棵决策树)组合得到一个强学习机。
随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。
这样就集成了多个分类器的分类结果,达到了更好的分类性能。
141、随机森林的2个随机是指( )。
-
A、 样本随机选择
-
B、 决策树的个数随机选择
-
C、 样本属性随机选择
-
D、 决策树的深度随机选择
答案: AC
六、聚类、K-means、层次聚类与DBSCAN
匹配范围:覆盖K均值概念、K值确定、聚类质量评价、轮廓系数、层次聚类、DBSCAN、图像分割等。
本节题库原题号:142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、168、169、170、171、172、173、177、179、180、181、182、183、184、186、199
142、下列关于聚类标准的说法正确的是( )。
-
A、 簇内距离和簇间聚类尽可能大
-
B、 簇内距离和簇间聚类尽可能小
-
C、 簇内距离尽量大、簇间聚类尽可能小
-
D、 簇内距离尽量小、簇间聚类尽可能大
答案: D
143、下列关于聚类分析的度量标准轮廓系数的描述不准确的是( )。
-
A、 轮廓系数的最大值是1
-
B、 一个簇整体的轮廓系数越大,说明聚类的效果越好
-
C、 轮廓系数不可能出现负数
-
D、 聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大
答案: C
144、K-means算法适合对不规则形状的数据进行聚类。
答案: 错误
145、下列关于基于层次的聚类方法的描述不正确的是( )。
-
A、 按照层次聚类的过程分为自底向上和自顶向下2大类方法
-
B、 如果一直重复聚类过程的话,所有的样品最后可以归为一类
-
C、 自底向上的聚类方法是一种分裂聚类方法
-
D、 无论类间距离采用哪种计算方法,最终都是将最小距离的2个簇合并
答案: C
146、使用Python的sklearn.cluster库中的DBSCAN算法进行聚类的时候,参数eps和min_samples的描述正确的是( )。
-
A、 eps越大,聚出来的类越多
-
B、 eps越小,聚出来的类越多
-
C、 min_samples越小,一个簇中包含的样本点越少
-
D、 min_samples越小,一个簇中包含的样本点越多
答案: ABC
147、以下哪些数据的特征会对聚类有影响( )。
-
A、 高维性
-
B、 样本规模
-
C、 噪声
-
D、 离群点
答案: ABCD
148、根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适( )。
-
A、 聚类
-
B、 回归分析
-
C、 神经网络
-
D、 关联分析
答案: A
149、有关聚类算法不正确的说法是( )。
-
A、 把分析的样本根据距离分组
-
B、 必须给出聚类的组数
-
C、 聚类是分类的基础
-
D、 聚类算法可以找出每组样本不同的特征
答案: B
150、对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据( )。
-
A、 客户人口数据
-
B、 收入数据
-
C、 家庭男女组成
-
D、 客户长途市话以及漫游等通话数据
答案: ABD
151、有关机器学习算法选择的说法不正确的有( )。
-
A、 每种算法都有其使用范围,因此选择算法需要考虑具体处理的问题
-
B、 判断机器学习算法好坏在数据需求阶段就可以确定
-
C、 在分类前可以先做聚类分析
-
D、 对聚类问题可以任选一种聚类算法
答案: BD
152、下列说法错误的是 ( )。
-
A、 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
-
B、 聚类分析可以看作是一种非监督的样本分组过程
-
C、 k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定
-
D、 k均值算法的计算耗时与初始假设聚类中心的位置有关
答案: A
153、有关k-means下列说法正确的是( )。
-
A、 可以确定样本属性的重要性
-
B、 可以处理规则分布数据的聚类
-
C、 适合任意数据集的分组
-
D、 聚类的结果与初始选择的假设聚类中心无关
答案: B
解析:
154、以下有关kohonen神经网络聚类模型正确的说法是( )。
-
A、 Kohonen神经网络的聚类过程不需要计算样本之间的距离
-
B、 Kohonen输入层和输出层之间的权重修正不能使用梯度下降法
-
C、 kohonon神经网络输出层的神经元计算类似BP神经网络的输出神经元计算
-
D、 Kohonon神经网络聚类的组数事先可以确定
答案: A
155、聚类中的簇与分类中的类的关系是( )。
-
A、 簇即是类、类即是簇
-
B、 簇是类的一种具体表现形式
-
C、 类是簇的一种具体表现形式
-
D、 不是一码事,但实际中有一定联系
答案: D
156、在市场营销中,聚类最有可能帮助经营者( )。
-
A、 对客户群进行划分
-
B、 进行商品推荐
-
C、 进兴趣进行分类
-
D、 辅助商品定价
答案: A
157、一个好的聚类算法应当具备哪些潜质( )。
-
A、 能够处理非球形的数据分布
-
B、 能够处理噪点和离群点
-
C、 对样本输入序列不敏感
-
D、 对海量数据的可扩展性
答案: ABCD
158、关于数据预处理对聚类分析的影响的错误说法是( )。
-
A、 可能改变数据点之间的位置关系
-
B、 可能改变簇的个数
-
C、 有助于提升聚类质量
-
D、 可能产生不确定影响
答案: C
159、在基于聚类的图像分割例子中( )。
-
A、 色彩越复杂的图,需要的簇的个数越少
-
B、 属于同一个物体的像素对应同一个簇
-
C、 簇的个数越少,分割后图像越接近原始图像
-
D、 簇的个数越多,分割后图像越接近原始图像
答案: D
160、如何衡量聚类的质量( )。
-
A、 簇内数据点散布越小越好
-
B、 簇中心点之间的距离越大越好
-
C、 簇的个数越小越好
-
D、 需要考虑数据点间的连通性
答案: D
161、对于轮廓系数图表述正确的是( )。
-
A、 每个点的取值范围为[0, 1]
-
B、 每个点的取值越接近于0越好
-
C、 可以体现出簇的紧凑性
-
D、 对于离群点,取值可能超过1性
答案: C
162、K-Means算法中的初始中心点( )。
-
A、 可随意设置
-
B、 必须在每个簇的真实中心点的附近
-
C、 必须足够分散
-
D、 直接影响算法的收敛结果
答案: D
168、与K-Means相比,基于密度的DBSCAN的优点不包括( )。
-
A、 能妥善处理噪点和离群点
-
B、 能处理不规则的数据分布
-
C、 不需要预先设定簇的个数
-
D、 较低的计算复杂度
答案: D
169、在DBSCAN中,对数据点类型的划分中不包括( )。
-
A、 中心点
-
B、 核心点
-
C、 边缘点
-
D、 噪点
答案: A
170、在DBSCAN中,对数据点类型的划分中不包括( )。
-
A、 划分到最近的簇
-
B、 所有噪点单独形成一个簇
-
C、 直接无视
-
D、 不做特别区分
答案: C
171、在层次型聚类中( )。
-
A、 需要用户预先设定聚类的个数
-
B、 需要用户预先设定聚类个数的范围
-
C、 对于N个数据点,可生成1到N个簇
-
D、 对于N个数据点,可生成1到N/2个簇
答案: C
172、在层次型聚类中,两个点集之间的距离计算方法通常不包括( )。
-
A、 由点集间距离最近的一对点的距离决定
-
B、 由点集间距离最远的一对点的距离决定
-
C、 由点集间随机的一对点的距离决定
-
D、 由点集间所有点的平均距离决定
答案: C
173、在DBSCAN中,对噪音处理正确的是( )。
-
A、 划分到最近的簇
-
B、 所有噪点单独形成一个簇
-
C、 直接无视
-
D、 不做特别区分
答案: C
177、聚类分析的目的是什么?
答案:
聚类分析用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似 (距高相近)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。
179、评价聚类算法的好坏可以从哪些方面入手?
答案:
良好的可伸缩性、处理不同类型数据的能力、处理噪声数据的能力、对样本顺序的不敏感性、约束条件下的表现、易解释性和易用性。
具体评价指标包括外部指标如 Rand统计量、F值、Jaccard指数、FM指数等;内部指标如欧式距离、曼哈顿距离、切比雪夫距离、明科夫斯基距离、紧密度、分隔度、戴维森堡丁指数、邓恩指数等。
180、 简要说明基于划分的聚类方法基本原理。
答案:
基于划分的方法通过将对象划分为互斥的簇进行聚类, 每个对象属于且仅属于一个簇。
划分结果旨在使簇之间的相似性低,簇内部的相似度高。
181、 k-均值算法的聚类数k如何确定。
答案:
第一种方法:与层次聚类算法结合,先通过层次聚类算法得出大致的聚类数目,并且获得一个初始聚类结果,然后再通过 k-均值算法改进聚类结果
第二种方法:基于系统演化的方法,将数据集视为伪热力学系统,在分裂和合并过程中,将系统演化到稳定平衡状态从而确定 k值
182、下列关于聚类标准的说法正确的是( )。
-
A、 簇内距离和簇间聚类尽可能大
-
B、 簇内距离和簇间聚类尽可能小
-
C、 簇内距离尽量大、簇间聚类尽可能小
-
D、 簇内距离尽量小、簇间聚类尽可能大
答案: D
183、下列关于聚类分析的度量标准轮廓系数的描述不准确的是( )。
-
A、 轮廓系数的最大值是1
-
B、 一个簇整体的轮廓系数越大,说明聚类的效果越好
-
C、 轮廓系数不可能出现负数
-
D、 聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大
答案: C
184、使用Python的sklearn.cluster库中的DBSCAN算法进行聚类的时候,参数eps和min_samples的描述正确的是( )。
-
A、 eps越大,聚出来的类越多
-
B、 eps越小,聚出来的类越多
-
C、 min_samples越小,一个簇中包含的样本点越少
-
D、 min_samples越小,一个簇中包含的样本点越多
答案: BC
解析:
186、下列关于基于层次的聚类方法的描述不正确的是( )。
-
A、 按照层次聚类的过程分为自底向上和自顶向下2大类方法
-
B、 如果一直重复聚类过程的话,所有的样品最后可以归为一类
-
C、 自底向上的聚类方法是一种分裂聚类方法
-
D、 无论类间距离采用哪种计算方法,最终都是将最小距离的2个簇合并
答案: C
199、根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适( )。
-
A、 聚类
-
B、 回归分析
-
C、 神经网络
-
D、 关联分析
答案: A
七、贝叶斯概率、贝叶斯网络与朴素贝叶斯
匹配范围:覆盖先验概率、后验概率、联合概率、条件独立、贝叶斯网络、朴素贝叶斯基本假设和应用。
本节题库原题号:298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322
298、一个人得流感头疼的概率和头疼得流感的概率是一样的。
答案: 错误
299、贝叶斯网络推理就是用概率的方法进行( )推理。
-
A、 确定
-
B、 不确定
-
C、 分类
-
D、 聚类
答案: B
300、贝叶斯网络由下面哪几部分组成( )。
-
A、 参数θ
-
B、 联合概率p
-
C、 结构G
-
D、 各个变量的先验概率
答案: AC
301、使用贝叶斯网络进行文本分类时,如果有100个单词,词汇量是50000,需要计算概率的总数是( )。
-
A、 1000000
-
B、 10000000
-
C、 100000
-
D、 10000
答案: B
302、使用贝叶斯网络进行疾病诊断的时候,一般知道先验概率时的准确率要比不知道先验概率时的准确率要高。
答案: 正确
303、已知池中有两种鱼,比例为7:3,若随机捞上一条,按照70%和30%概率随机猜测其种类,则整体误差最接近于( )。
-
A、 20%
-
B、 30%
-
C、 40%
-
D、 50%
答案: C
304、2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。提问:小明的妈妈有两个孩子,已知其中一个是男孩儿,问另一个也是男孩儿的概率是( )。
-
A、 二分之一
-
B、 三分之一
-
C、 四分之一
-
D、 真的不关我的事
答案: B
305、已知甲乙丙三人射击命中率分别为0.8,0.6和0.5,若每人各开一枪,则目标被命中的概率最接近( )。
-
A、 0.85
-
B、 0.90
-
C、 0.95
-
D、 1.00
答案: C
306、当化验报告呈阳性的时候,正确的做法是( )。
-
A、 心如死灰,万念俱灭
-
B、 散尽家财,及时行乐
-
C、 置若罔闻,我行我素
-
D、 及时复检,防止假阳性
答案: D
307、下面有关朴素贝叶斯算法的认识错误的是( )。
-
A、 与决策树算法不同,朴素贝叶斯模型是比较各种类别出现的概率大小确定样本的类别
-
B、 朴素贝叶斯算法是一种使用概率理论的非监督分类算法
-
C、 朴素贝叶斯模型需要先确定特征,并根据样本计算相关的先验概率,再计算特征条件下的分类变量的后验概率
-
D、 朴素贝叶斯模型课用于垃圾邮件分类、微博用户情感的识别等场景
答案: B
308、有关朴素贝叶斯分类器的说法正确的是( )。
-
A、 朴素贝叶斯分类器的变量必须是非连续性变量
-
B、 朴素贝叶斯模型分类时需要计算属于各种类别的概率,取其中概率最大的类别最为分类预测值
-
C、 朴素贝叶斯模型中的特征和类别变量之间也要相互独立
-
D、 朴素贝叶斯分类器对于小样本数据集效果不如决策树好
答案: B
309、朴素贝叶斯分类器的朴素之处在于( )。
-
A、 只能处理低维属性
-
B、 只能处理离散型属性
-
C、 分类效果一般
-
D、 属性之间的条件独立性假设
答案: D
310、以下关于两个变量X和Y说法正确的是( )。
-
A、 若独立一定不相关
-
B、 若不相关一定独立
-
C、 若独立不一定不相关
-
D、 我已经晕了
答案: A
311、两个事件A和B条件独立指的是( )。
-
A、 P(A, B)=P(A)P(B)
-
B、 P(A, B)=P(A|B)P(B)
-
C、 P(A|B, C)=P(A|C)
-
D、 P(A|B)=P(A)
答案: C
312、如果两个事件独立,那么这两个事件是不相关的。
答案: 错误
313、以下关于拉普拉斯平滑说法正确的是( )。
-
A、 防止计算条件概率时分母为零
-
B、 防止计算条件概率时分子为零
-
C、 用于解决训练集中的噪声
-
D、 用于解决训练集中的异常值
答案: B
314、下面有关贝叶斯网络认识错误的是( )。
-
A、 叶斯网络克服了朴素贝叶斯特征之间需要相互独立等不足
-
B、 贝叶斯网络设计过程中主要是根据领域知识确定贝叶斯网络结构、确定网络参数(条件概率表)
-
C、 贝叶斯网络变量之间的因果关系和相应的概率部分是人工专家指定,不需要样本训练
-
D、 贝叶斯网络的参数主要是条件概率表中的概率值,可以使用最大似然估计或贝叶斯估计等方法
答案: C
315、下面有关贝叶斯网络的说法错误的有哪些( )。
-
A、 贝叶斯网络结构可以由机器自动完成
-
B、 贝叶斯网络的搭建需要考虑变量之间的因果关系,这是贝叶斯网络推理的基础
-
C、 作为一种监督学习算法,贝叶斯网络也需要大量的样本分析变量之间的概率
-
D、 贝叶斯网络的推理只能由原因变量,计算其联合概率,推出目标(分类)变量的条件概率,而不能由目标变量推出原因变量的可能性
答案: AD
316、贝叶斯网络就是使用有向无环图来表示变量间依赖关系的概率图模型。
答案: 正确
317、贝叶斯网络构建的方法包括( )。
-
A、 根据问题和领域专家知识手工构建
-
B、 通过对数据进行分析得到贝叶斯网络
-
C、 根据问题自动创建
-
D、 综合领域专家知识是数据分析得到贝叶斯网络
答案: ABD
318、贝叶斯网络学习包括参数学习和结构学习。
答案: 正确
319、贝叶斯网络推理方法包括( )。
-
A、 从左至右
-
B、 自顶向下
-
C、 自底向上
-
D、 从右至左
答案: BC
320、以下哪些不是贝叶斯网络的应用场景( )。
-
A、 中文分词
-
B、 机器故障诊断
-
C、 招聘人才选拔规则
-
D、 根据客户的消费行为对其进行分组
答案: CD
321、在文本分类应用中,关于词袋模型的描述正确的是( )。
-
A、 任何一个单词只能存在于某一个词袋中
-
B、 一个单词可能存在于多个词袋中但频率不同
-
C、 所有词袋中单词的并集就等同于词汇表
-
D、 词袋模型描述的是单词在所有文本中出现的频率
答案: B
322、使用贝叶斯网络进行分类的时候,知道的相关信息越多,判断的准确率越高。
答案: 正确
八、支持向量机SVM、超平面、软间隔与核函数
匹配范围:覆盖SVM概念、支持向量、margin、超平面、软间隔、核函数、线性不可分问题和核函数选择。
本节题库原题号:328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348
328、支持向量机是一个分类器,超平面上的数据是支持向量,超平面以外的数据可以辅助分类。
答案: 错误
329、一个分类模型的capacity指的是( )。
-
A、 能够解决几分类问题
-
B、 能解决多大规模的问题
-
C、 能将多少个点分开,不论如何分配标签
-
D、 能达到的精确度
答案: C
330、为什么当两个模型的训练误差相同或接近的时候,通常会选择比较简单的一个( )。
-
A、 复杂模型的测试误差一定较大
-
B、 简单模型的测试误差一定较小
-
C、 在相同置信度条件下,复杂模型的测试误差上界较大
-
D、 只是一种经验,并没有理论依据
答案: C
331、在SVM领域中,margin的含义是( )。
-
A、 盈利率
-
B、 马金
-
C、 间隔
-
D、 保证金
答案: C
332、线性SVM和一般线性分类器的区别主要是( )。
-
A、 是否进行了空间映射
-
B、 是否确保间隔最大化
-
C、 是否能处理线性不可分问题
-
D、 训练误差通常较低
答案: B
333、为什么通常要选择margin最大的分类器( )。
-
A、 所需的支持向量个数最少
-
B、 计算复杂度最低
-
C、 训练误差最低
-
D、 望获得较低的测试误差
答案: D
334、假设超平面为w*x+b=0,其margin的大小为( )。
-
A、 1/|w|
-
B、 2/|w|
-
C、 |b|/|w|
-
D、 |b|/|w
答案: B
335、支持向量(support vectors)指的是( )。
-
A、 对原始数据进行采样得到的样本点
-
B、 决定分类面可以平移的范围的数据点
-
C、 位于分类面上的点
-
D、 能够被正确分类的数据点
答案: B
336、SVM核心技术的发展经历了( )。
-
A、 10年
-
B、 20年
-
C、 30年
-
D、 40年
答案: C
337、在SVM的求解过程中,支持向量与α的关系是( )。
-
A、 alpha=0的数据点是支持向量
-
B、 alpha>0的数据点是支持向量
-
C、 alpha<0的数据点是支持向量
-
D、 两者没有固定关系
答案: B
338、在SVM当中,主要的运算形式是( )。
-
A、 向量内积
-
B、 矩阵乘法
-
C、 矩阵转置
-
D、 矩阵分解
答案: A
339、软间隔(soft margin)的主要用途是( )。
-
A、 解决线性不可分问题
-
B、 解决不完全线性可分问题
-
C、 降低算法时间复杂度
-
D、 提高算法分类精确
答案: B
340、在SVM当中进行空间映射的主要目的是( )。
-
A、 降低计算复杂度
-
B、 提取较为重要的特征
-
C、 对原始数据进行标准化
-
D、 提高原始问题的可分性
答案: D
341、对于SVM,在映射后的高维空间直接进行计算的主要问题是( )。
-
A、 模型可解释性差
-
B、 计算复杂度高
-
C、 容易出现奇异矩阵
-
D、 容易出现稀疏矩阵
答案: B
342、通过运用核函数,我们可以( )。
-
A、 提高算法的可解释性
-
B、 生成数量较少的支持向量
-
C、 生成数量较多的支持向量
-
D、 避免高维空间运算,降低算法复杂度
答案: D
343、常用的核函数包括( )。
-
A、 线性核函数
-
B、 高斯核函数
-
C、 多项式核函数
-
D、 sigmoid和函数
答案: ABCD
344、使用支持向量机对新闻主题进行分类的步骤不包括( )。
-
A、 获取数据
-
B、 将文本转化为向量
-
C、 选取特征值
-
D、 分割数据集
答案: C
345、使用支持向量机检测信用卡欺诈的案例中对数据进行的处理包括( )。
-
A、 载入数据
-
B、 分割数据
-
C、 标准化数据
-
D、 处理缺失数据
答案: ABC
解析:
346、列举支持向量机常用的3种核函数,并说明他们的优点。
答案:
线性核函数:主要用于线性可分的情况。
多项式核函数:一种非稳态核函数,适合于正交归一化后的数据。
径向基核函数:具有很强的灵活性,应用广泛。大多数情况下有较好的性能。
Sigmoid核:来源于MLP中的激活函数,SVM使用Sigmoid相当于一个两层的感知机网络。
347、作为一种分类算法,支持向量机的基本原理是什么?
答案:
支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。
348、核函数的选择对支持向量机的性能有何影响。
答案:
只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。
事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。
核函数的使用,不一定能够准确的划分,只能说使用哪个核函数,能够逼近真实的划分效果。
因此特征空间的好坏对支持向量机的性能至关重要。在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式定义了这个特征空间。
于是,核函数的选择成为了支持向量机的最大变数。若核函数选择不合适,则意味着映射到一个不合适的特征空间,很可能导致性能不佳。
九、梯度下降、神经网络、深度学习与梯度消失
匹配范围:覆盖梯度下降迭代过程、是否能找到全局最优、神经网络训练、激活函数、batch size、深度学习与传统机器学习对比。
本节题库原题号:35、251、255、257、259、260、261、262、263、264、265、271、272、273、274、275、276、277、278、282、283、296、297
35、讨论深度学习的发展对推动机器学习的意义。
答案:
深度学习需要大量的标记数据并需要大量的计算能力,因此深度学习可以较好地应对机器学习中大规模数据集,为机器学习提供了解决复杂问题的方法。
251、神经网络的强大之处在于( )。
-
A、 复杂的结果
-
B、 并行处理能力
-
C、 串行处理能力
-
D、 神经元的功能
答案: B
255、Sigmoid函数的输出范围是( )。
-
A、 [0,1]
-
B、 (0,1]
-
C、 [0,1)
-
D、 (0,1)
答案: D
257、使用提前终止的方法可以防止过拟合现象的发生。
答案: 正确
259、以下关于神经网络的描述正确的说法是( )。
-
A、 神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系
-
B、 不能确定输入属性的重要性
-
C、 训练神经网络是一个很耗时的过程
-
D、 只能用于分类
答案: C
260、神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的( )。
-
A、 一个神经元可以有多个输入和一个输出
-
B、 一个神经元可以有一个输入和多个输出
-
C、 一个神经元可以有多个输入和多个输出
-
D、 上述都正确
答案: D
261、有关前馈神经网络的认识正确的是( )。
-
A、 神经网络训练过程是拟合训练数据模式的过程
-
B、 神经网络训练后很容易得到分类的规则
-
C、 神经网络可用于分类和聚类
-
D、 神经网络模型的分类能力比决策树好
答案: A
262、下面关于感知机的说法中正确的是( )。
-
A、 某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出
-
B、 单个感知机是线性回归的训练过程
-
C、 在感知机中引入激活函数可以解决与异或问题(XOR)
-
D、 以上都不对
答案: B
263、通过增加样本数可以减少过拟合的发生,常用的方法有以下几种( )。
-
A、 从数据源采集更多的数据
-
B、 复制原有数据并添加随机噪声
-
C、 重(复)采样
-
D、 根据现有样本估计样本的分布,然后按照此分布再产生一些样本
答案: ABCD
264、在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么( )。
-
A、 根据人工经验随机赋值
-
B、 搜索所有权重和偏差的组合,直到得到最佳值
-
C、 赋予一个初始值,然后迭代更新权重,直至代价函数取得极小
-
D、 以上都不正确
答案: C
265、下列哪些方法可以用来降低深度学习模型的过拟合问题( )。
-
A、 增加更多的数据
-
B、 提前停止训练
-
C、 Dropout
-
D、 正则化代价函数
答案: ABCD
271、以下关于感知机说法正确的是( )。
-
A、 在批量学习模式下,权重调整出现在学习每个样本之后
-
B、 只要参数设置得当,感知机理论上可以解决各种分类问题
-
C、 感知机的训练过程可以看成是在误差空间进行梯度下降
-
D、 感知机的激励函数必须采用门限函数
答案: C
272、以下关于感知机说法正确的是( )。
-
A、 多层感知机比感知机只多了一个隐含层
-
B、 感知机只能形成线性判决平面,无法解决异或问题
-
C、 多层感知机可以有多个隐含层,但是只能有一个输出单元
-
D、 隐含层神经元的个数应当小于输入层神经元的个数
答案: B
273、多层感知机解决线性不可分问题的原理是( )。
-
A、 分而治之,对原始问题空间进行划分
-
B、 将原始问题向更高维空间映射
-
C、 在输出层和隐含层之间形成非线性的分界面
-
D、 将原始问题在隐含层映射成线性可分问题
答案: D
274、采用Sigmod函数作为激励函数的主要原因是( )。
-
A、 有固定的输出上下界
-
B、 计算复杂度较低
-
C、 导数存在解析解
-
D、 处处可导
答案: ACD
275、在误差逆传播算法中,输出层神经元权重的调整机制和感知机的学习规则相比( )。
-
A、 考虑到线性不可分问题,学习规则更为复杂
-
B、 一模一样,等价于多个感知机
-
C、 遵循相同的原理,激励函数可能有所不同
-
D、 所有输出层神经元的权重需要同步调整
答案: C
276、在误差逆传播算法中,隐含层节点的误差信息应当( )。
-
A、 根据自身的期望输出和实际输出的差值计算
-
B、 根据所有输出层神经元的误差的均值计算
-
C、 根据自身下游神经元的误差进行加权计算
-
D、 根据自身下游神经元的误差的均值计算
答案: C
277、为了克服学习空间中存在的局部最优点应当( )。
-
A、 尝试从不同的初始点开始训练
-
B、 将权重初始化为接近于0的值
-
C、 采用较小的学习率
-
D、 增加隐含层神经元个数
答案: A
278、关于学习率参数的设置,正确的描述是( )。
-
A、 较大的值有助于提高算法的收敛稳定性
-
B、 较小的值有助于提高算法的收敛速度
-
C、 在开始阶段应该较大,然后逐渐减小
-
D、 在开始阶段应该较小,然后逐渐增大
答案: C
282、前馈神经网络适用的场景为( )。
-
A、 训练时间有限
-
B、 需要较快的测试响应速度
-
C、 较好的可解释性
-
D、 多分类问题
答案: BD
283、梯度下降算法的正确步骤是什么( )1.计算预测值和真实值之间的误差。2.迭代更新,直到找到最佳权重。3把输入传入网络,得到输出值。4. 初始化随机权重和偏差。5.对每一个产生误差的神经元,改变相应的(权重)值以减小误差
-
A、 12345
-
B、 54321
-
C、 32154
-
D、 43152
答案: D
296、与决策树比较,神经网络适合处理什么类型的数据和问题。
答案:
在中小数据集上,优先选择集成树模型。
大数据集上推荐神经网络;在需要模型解释度的项目上,优先使用树模型;
在项目时间较短的项目上,如果数据质量低 (大量缺失值、噪音等),优先使用集成树模型;
在硬件条件有限及机器学习知识有限的前提下,优先选择树模型;
对于结构化较高的数据,尤其是语音、图片、语言,优先使用神经网络模型(往往其数据量也较大)。
297、什么是梯度消失?如何加快梯度下降的速度?
答案:
因为通常神经网络所用的激活函数是sigmoid函数,这个函数有个特点,就是能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘,得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数非常深的时候,最后一层产生的偏差就因为乘了很多的小于1的数而越来越小,最终就会变为0,从而导致层数比较浅的权重没有更新,这就是梯度消失。
可以使用mini-batch、Stochastic gradient descent等方法。mini-batch是将训练集分组,分组之后,分别对每组求梯度,然后更新参数。加入分 8组,则每次迭代将会做8次梯度下降,更新8次参数。所以mini-batch比传统的梯度下降法下降的速度快。Stochastic gradient descent可以看做是mini-batch的一种特殊情况,当mini-batch size等于1时,mini-batch就退化为Stochastic gradient descent。此时每次迭代中,对于数据集中每个样本都做一次梯度下降。还可以使用Monmentum、RMSprop、Adam等方法。
十、文本特征、图像分割与NLP拓展题
匹配范围:图片中出现“图像特征提取、序列数据模型”等拓展表述,题库中较接近的是文本特征、情感分析、图像分割等题。
本节题库原题号:159、188、189、190、191、195、196、197、198
159、在基于聚类的图像分割例子中( )。
-
A、 色彩越复杂的图,需要的簇的个数越少
-
B、 属于同一个物体的像素对应同一个簇
-
C、 簇的个数越少,分割后图像越接近原始图像
-
D、 簇的个数越多,分割后图像越接近原始图像
答案: D
188、高斯函数的个数和峰值个数是一致的,有几个高斯函数就有几个峰值。
答案: 错误
189、TF-IDF是用来评估文本中一个词对语料库中一篇文章重要程度的衡量标准,一个词在一篇文章中出现的频率越高,并且在语料库中其他文章中出现的次数越多,说明这个词越重要。
答案: 错误
190、下列关于文本特征提取评价标准的描述不正确的是( )。
-
A、 信息增益的值越大,说明这个属性越好
-
B、 IDF的值越大,说明这个词越能够代表整篇文章的意思
-
C、 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小
-
D、 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
答案: C
191、下列不能做词嵌入的方法是( )。
-
A、 One-hot
-
B、 TF-IDF
-
C、 Word2Vec
-
D、 GloVe
答案: B
195、常见的文本特征提取方法包括( )。
-
A、 LSI
-
B、 TF-IDF
-
C、 词嵌入
-
D、 向量空间模型
答案: ABCD
196、信息熵的值域是[0,1],值越大表示确定性越大。
答案: 错误
197、下列关于情感分析的说明正确的是( )。
-
A、 常用神经网络来判断情感
-
B、 “他是一个乐于助人的小朋友”,这句话的情感是是负向的
-
C、 情感分析属于分类问题
-
D、 “明天可能会下雪”这句话的情感是正向的
答案: C
198、有关文本特征的理解,错误的说法是哪个( )。
-
A、 文本不方便直接处理,需要提取表征内容的特征数值化
-
B、 TF-IDF和互信息都是文本特征提取的方法
-
C、 one-hot可以表示一个词的重要性
-
D、 信息增益是文本特征提取的方法
答案: C
十一、图片范围新增补充题与可背答案
以下题目主要来自新增手机图片范围,或用于补足题库中没有直接原题的考点。它们不是题库原题,但更贴近老师口头范围和图片中的考点。
补充1 应用场景属于哪类机器学习任务
**题目:**判断下列场景属于哪类任务:房价预测、肿瘤良恶性识别、信用卡欺诈识别、根据身高体重预测体脂率、客户分群。
**答案:**房价预测、体脂率预测属于回归;肿瘤良恶性识别、信用卡欺诈识别属于二分类;客户分群属于无监督聚类;如果肿瘤分成多种病理类型,则属于多分类。
**解析:**关键看输出结果。如果输出连续数值,是回归;如果输出两个类别,是二分类;如果输出多个类别,是多分类;如果没有标签,只是按相似性分组,是聚类。
补充2 KNN算法怎样评价效果,影响效果的因素有哪些
**题目:**简述KNN算法的效果评价方法和主要影响因素。
**答案:**分类KNN通常用Accuracy、Precision、Recall、F1、混淆矩阵等评价;回归KNN常用MAE、MSE、RMSE、R2等评价。影响因素包括K值、距离度量、特征标准化、样本分布、类别不平衡、噪声和异常值、是否采用距离加权投票。
**解析:**KNN直接依赖样本间距离。特征量纲不同会导致距离被大尺度特征主导,K太小容易受噪声影响,K太大可能把局部结构抹平。
补充3 PCA可以用哪些指标衡量,PCA对数据是否有损失
**题目:**PCA降维效果可以用哪些指标衡量?PCA对数据是否一定有损失?
**答案:**常用指标包括各主成分方差贡献率、累计方差贡献率、保留维度数量、重构误差、可视化分离效果、下游模型效果变化。PCA如果只是坐标旋转且保留全部主成分,理论上信息不损失;如果降到更低维,通常会丢失部分信息。考试中问“PCA降维是否有损失”时,通常答:降维会有信息损失,但可通过保留较高累计方差贡献率来控制损失。
**解析:**PCA保留方差最大的方向,丢弃方差较小方向。方差贡献率越高,说明保留下来的信息越多,但方差小不一定等于对任务完全无用。
补充4 支持向量机常见判断口径
**题目:**判断:支持向量机只能处理线性可分数据。
**答案:**错误。线性SVM用于线性可分或近似线性可分问题;软间隔可以处理不完全线性可分;核函数可以把数据隐式映射到高维空间处理非线性问题。
**解析:**SVM的核心不是“只能画直线”,而是在特征空间中寻找最大间隔超平面。核函数让非线性边界成为可能。
补充5 余弦相似度计算与判断
**题目:**已知向量A=(1,2),B=(2,4),判断两者余弦相似度是否接近1,并说明含义。
**答案:**A和B方向完全相同,余弦相似度为1,表示方向上最相似。余弦相似度越接近1,两个向量越相似;越接近0,方向越不相关;越接近-1,方向越相反。
**解析:**余弦相似度关注夹角,不关注向量长度。文本向量、推荐系统中经常使用它衡量方向相似性。
补充6 混淆矩阵与Precision、Recall、Accuracy
**题目:**某二分类模型TP=80,FP=20,FN=10,TN=90,计算Precision、Recall、Accuracy。
**答案:**Precision=TP/(TP+FP)=80/(80+20)=0.80;Recall=TP/(TP+FN)=80/(80+10)=0.889;Accuracy=(TP+TN)/(TP+FP+FN+TN)=(80+90)/200=0.85。
**解析:**Precision看“预测为正的里面有多少真为正”;Recall看“真实为正的里面找回了多少”;Accuracy看整体预测正确比例。类别不平衡时,不能只看Accuracy。
补充7 模型准确率是否越高越好
**题目:**判断:分类模型Accuracy越高,模型性能一定越好。
**答案:**错误。Accuracy高不一定代表模型整体性能更好,特别是在类别不平衡、误判代价不同、需要关注少数类召回率的场景中。
**解析:**例如欺诈检测中,欺诈样本很少,模型全部预测为正常也可能有很高Accuracy,但Recall很差,实际价值很低。
补充8 梯度下降有哪些类型,是否都能找到全局最优
**题目:**简述梯度下降的常见类型,并判断梯度下降是否总能找到全局最优。
**答案:**常见类型有批量梯度下降BGD、随机梯度下降SGD、小批量梯度下降Mini-batch GD。对凸优化问题,在合适学习率和条件下可收敛到全局最优或接近全局最优;对神经网络等非凸问题,不保证找到全局最优,可能停在局部最优、鞍点或较好的近似解。
**解析:**梯度下降只是沿负梯度方向迭代的优化方法,能否全局最优取决于损失函数形状、学习率、初始化和数据。
补充9 Batch size大小对深度学习训练的影响
**题目:**深度学习训练时batch size大小会带来什么影响?
**答案:**batch size小,参数更新更频繁,梯度噪声更大,显存占用小,可能有更好的泛化但训练不够稳定;batch size大,梯度估计更稳定,硬件并行效率更高,但显存占用大,可能需要调整学习率,过大时泛化可能变差。
**解析:**batch size不是越大越好,也不是越小越好,要结合显存、数据规模、学习率和收敛情况调整。
补充10 决策树和集成学习是否需要标准化
**题目:**判断:所有机器学习模型都必须先做标准化。
**答案:**错误。KNN、SVM、逻辑回归、神经网络等通常需要标准化;决策树、随机森林、GBDT等树模型一般不强制需要标准化。集成学习是否需要标准化取决于基学习器。
**解析:**依赖距离、内积或梯度优化的模型对尺度敏感;树模型主要根据阈值切分特征,对单调尺度变换相对不敏感。
补充11 欠拟合与过拟合定义和解决方法
**题目:**解释欠拟合和过拟合的定义,并说明解决方法。
**答案:**欠拟合是模型过于简单,训练集和测试集效果都差。解决方法包括增加模型复杂度、增加特征、减少过强正则化、训练更久。过拟合是模型把训练集噪声也学进去,训练集效果好但测试集效果差。解决方法包括增加数据、数据增强、正则化、剪枝、Dropout、早停、降低模型复杂度、交叉验证。
**解析:**判断二者要同时看训练集和测试集。只看一个指标容易误判。
补充12 特征工程过程、应用和优缺点
**题目:**简述特征工程的主要过程、应用和优缺点。
**答案:**过程包括数据清洗、缺失值处理、异常值处理、编码、标准化/归一化、特征构造、特征选择、特征提取、降维。应用于分类、回归、聚类、推荐、文本分析等任务。优点是能提升模型效果、降低噪声、增强可解释性;缺点是依赖业务经验,容易引入偏差,处理不当会造成信息泄漏或损失。
**解析:**特征工程不是单一步骤,而是把原始数据转化成模型可有效学习的数据表示。
补充13 深度学习与传统机器学习对比
**题目:**比较深度学习和传统机器学习的优缺点。
**答案:**传统机器学习通常依赖人工特征工程,适合中小规模结构化数据,可解释性较好,训练成本较低;深度学习能自动学习复杂特征,适合图像、语音、文本等非结构化大数据,但需要大量数据和算力,可解释性较弱,调参成本较高。
**解析:**选择哪种方法不是看名字高级,而是看数据规模、数据类型、任务复杂度、算力、解释性要求和项目时间。
补充14 数据预处理对机器学习的影响
**题目:**说明数据预处理对机器学习有什么影响。
**答案:**数据预处理会影响模型训练稳定性、收敛速度、泛化能力和最终评价指标。缺失值、异常值、重复数据、噪声、量纲差异、类别不平衡都会干扰模型学习。好的预处理可以提升有效信息质量,错误预处理可能造成信息泄漏、样本偏差或重要信息损失。
**解析:**对考试来说,要强调“不是所有数据都直接删除”,而是根据问题选择填补、修正、变换、保留或剔除。
补充15 机器学习算法选择依据
**题目:**选择机器学习算法时应考虑哪些依据?
**答案:**应考虑任务类型、数据规模、特征维度、线性或非线性关系、类别是否平衡、噪声和异常值、是否需要解释性、训练和预测速度、可用算力、评价指标和业务代价。例如小规模高维分类可考虑SVM,结构化表格分类可考虑树模型或随机森林,图像语音文本等非结构化大数据可考虑深度学习。
**解析:**不存在一种算法适合所有问题,算法选择需要实验比较和交叉验证。
补充16 大数据对机器学习和深度学习的影响
**题目:**大数据对机器学习和深度学习带来了什么影响?
**答案:**积极影响包括提供更多训练样本、提升模型泛化能力、支持复杂模型学习、促进深度学习发展。挑战包括存储和计算成本增加、数据质量参差不齐、隐私安全风险、类别不平衡、噪声和偏差被放大、模型训练和部署成本上升。
**解析:**大数据不是数据越多越好,关键还要看数据质量、标注质量、代表性和计算资源。
补充17 Scikit-learn线性回归编程题
**题目:**使用 Scikit-learn 完成线性回归。要求:1. 导入库;2. 创建训练数据和测试数据;3. 创建并训练模型;4. 对测试数据预测并输出结果。
参考代码:
from sklearn.linear_model import LinearRegression |
**解析:**LinearRegression用于创建线性回归模型,fit用于训练,predict用于预测。该示例中模型会学习接近y=2x的关系。
补充18 机器学习应用前景和面临挑战
**题目:**讨论机器学习应用前景和面临的挑战。
**答案:**应用前景包括智能推荐、金融风控、医学诊断、工业质检、自动驾驶、自然语言处理、教育个性化和网络安全等。挑战包括高质量数据不足、模型可解释性弱、隐私和安全风险、偏见与公平性问题、部署成本高、模型漂移、过拟合和泛化能力不足。
**解析:**讨论题需要同时写价值和限制,不能只写应用广泛。
十二、考前高频判断口径速记
- 有标签训练一般是监督学习,无标签分组一般是无监督学习。
- 房价、销量、体重等连续数值预测一般是回归;是否患病、是否欺诈一般是二分类。
- K-means需要预先给定K,对初始中心敏感,适合近似球形簇,不适合复杂不规则形状。
- KNN依赖距离,通常需要标准化;K值太小易受噪声影响,K值太大容易欠拟合。
- PCA降维通常有信息损失,常看方差贡献率和累计方差贡献率。
- SVM不是只能处理线性问题,核函数可以处理非线性,软间隔处理不完全线性可分。
- Accuracy不能单独代表模型好坏,类别不平衡时要看Precision、Recall、F1等。
- 过拟合表现为训练集好、测试集差;欠拟合表现为训练集和测试集都差。
- 决策树和随机森林一般不强制标准化;SVM、KNN、逻辑回归、神经网络通常需要标准化。
- 梯度下降在凸问题中更容易接近全局最优,在深度学习非凸问题中不保证全局最优。
