《机器学习》(西瓜书)1-3章学习笔记
此系列为《机器学习》(西瓜书)的学习记录,旨在记录个人的一些思考和疑惑,以及自己的理解,表述不会像书本上那么准确清晰,最终以书本上的内容和表述为主,每段都会标注书本上的页码,方便自己和大家查看。如有表述错误或者理解与我不同的地方希望大佬们多多指正!感激不尽!
第一章 绪论
基本术语
本章从如何挑选西瓜的经验出发,介绍了本书所涉及基本术语和概念。
数据集、样本、特征(属性)、特征空间(属性空间、样本空间、输入空间)、特征向量、维数;
学习(训练)、训练数据、训练样本、假设、预测、标记、样例、标记空间(输出空间)、测试、测试样本;
分类、回归、聚类、簇、监督、无监督、泛化能力;
归纳、演绎、概念学习、假设空间、版本空间;
归纳偏好(偏好)、奥卡姆剃刀;
同时简要介绍了机器学习的发展史。
符号主义、连接主义、机器学习、数据挖掘、统计学;
NFL定理(p8-p9)
这是第一章讲解中较为有趣的一个点,也是机器学习各种算法之所以能应用于现实的支撑点,它从理论->现实,一般->特殊的方面呈现了机器学习算法的可行性(感觉是过度解读的请跳过)
该公式是以错误率为性能度量来计算学习算法的期望性能,理解该公式的重点是理解
由于f按均匀分布,所以Ⅱ(h(x)≠f(x))的期望等于(b-a)/2即0.5,而f对于二分类问题来说,每个样例和预测值的结果有两种,所以是2^(|x|),这个公式解决,发现是一个常数,所以往前提。
从这里便可以看出,整个学习算法的性能和算法本身没有任何关系。
!!!但是这个定理非常重要的一个前提是f均匀分布:所有“问题”出现的机会相同、或所有问题同等重要
然而现实中的任何问题都是无法均匀分布的,比如“(根蒂=蜷缩;敲声=浊响)”的好瓜常见,而“(根蒂=硬挺;敲声=清脆)”的好瓜罕见,甚至不存在,这也可以看成是人类经验的形成,正因为现实所有的东西无法做到均匀分布,才能形成经验。
因此,判断机器学习算法的性能,理应判断其能更好的泛化于现实。
相同的训练数据,根据现实情况的不同,算法的性能自然也不同
奥卡姆剃刀原则主张选择与经验观察一致的最简单假设(p17)
第二章 模型评估与选择
过拟合与欠拟合(亦称过配或欠配)
过拟合是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则是学习能力低下导致的。
过拟合无法避免,我们所能做的只是“缓解”,或者说减小其风险
从数据集D中产生训练集S和测试集T的几种做法
留出法
训练测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务重通常采用 “分层采样” 的做法,即各类之间的训练测试数据数量上保证偏差不大
其次是要做到多次随机划分,因为一次划分中难免存在偶然性,因此可以多次划分,测试算法性能取平均值
交叉验证法
交叉验证法是将数据集随机划分成K个数据
然后进行k次实验,第i次实验将Di作为测试集,其余的作为训练集,然后对测试结果取平均
在交叉验证法的基础上还有更加严格的留一法
留一法是在交叉验证法的基础上每个分组的测试样例只有一个样例,其余的n-1个用于训练。
因此往往认为留一法是比较准确的一种评测方法,当然其缺陷就是当数据集非常大的时候,需要n次评测
另外,留一法的评估结果也未必永远比其他评估方法准确;“没有免费的午餐定理”对实验评估方法同样适用(需要从建模问题的实际情况出发)