此系列为《机器学习》（西瓜书）的学习记录，旨在记录个人的一些思考和疑惑，以及自己的理解，表述不会像书本上那么准确清晰，最终以书本上的内容和表述为主，每段都会标注书本上的页码，方便自己和大家查看。如有表述错误或者理解与我不同的地方希望大佬们多多指正！感激不尽！

第一章绪论

基本术语

本章从如何挑选西瓜的经验出发，介绍了本书所涉及基本术语和概念。

数据集、样本、特征（属性）、特征空间（属性空间、样本空间、输入空间）、特征向量、维数；

学习（训练）、训练数据、训练样本、假设、预测、标记、样例、标记空间（输出空间）、测试、测试样本；

分类、回归、聚类、簇、监督、无监督、泛化能力；

归纳、演绎、概念学习、假设空间、版本空间；

归纳偏好（偏好）、奥卡姆剃刀；

同时简要介绍了机器学习的发展史。

符号主义、连接主义、机器学习、数据挖掘、统计学；

引用

NFL定理（p8-p9）

这是第一章讲解中较为有趣的一个点，也是机器学习各种算法之所以能应用于现实的支撑点，它从理论->现实，一般->特殊的方面呈现了机器学习算法的可行性（感觉是过度解读的请跳过）

该公式是以错误率为性能度量来计算学习算法的期望性能，理解该公式的重点是理解

由于f按均匀分布，所以Ⅱ(h(x)≠f(x))的期望等于(b-a)/2即0.5，而f对于二分类问题来说，每个样例和预测值的结果有两种，所以是2^(|x|)，这个公式解决，发现是一个常数，所以往前提。

从这里便可以看出，整个学习算法的性能和算法本身没有任何关系。

！！！但是这个定理非常重要的一个前提是f均匀分布：所有“问题”出现的机会相同、或所有问题同等重要

然而现实中的任何问题都是无法均匀分布的，比如“（根蒂=蜷缩；敲声=浊响）”的好瓜常见，而“（根蒂=硬挺；敲声=清脆）”的好瓜罕见，甚至不存在，这也可以看成是人类经验的形成，正因为现实所有的东西无法做到均匀分布，才能形成经验。

因此，判断机器学习算法的性能，理应判断其能更好的泛化于现实。

相同的训练数据，根据现实情况的不同，算法的性能自然也不同

奥卡姆剃刀原则主张选择与经验观察一致的最简单假设（p17）

第二章模型评估与选择

过拟合与欠拟合（亦称过配或欠配）

过拟合是由于学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则是学习能力低下导致的。

过拟合无法避免，我们所能做的只是“缓解”，或者说减小其风险

从数据集D中产生训练集S和测试集T的几种做法

留出法

训练测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响，例如在分类任务重通常采用 “分层采样” 的做法，即各类之间的训练测试数据数量上保证偏差不大

其次是要做到多次随机划分，因为一次划分中难免存在偶然性，因此可以多次划分，测试算法性能取平均值

交叉验证法

交叉验证法是将数据集随机划分成K个数据

然后进行k次实验，第i次实验将Di作为测试集，其余的作为训练集，然后对测试结果取平均

在交叉验证法的基础上还有更加严格的留一法

留一法是在交叉验证法的基础上每个分组的测试样例只有一个样例，其余的n-1个用于训练。

因此往往认为留一法是比较准确的一种评测方法，当然其缺陷就是当数据集非常大的时候，需要n次评测

另外，留一法的评估结果也未必永远比其他评估方法准确；“没有免费的午餐定理”对实验评估方法同样适用（需要从建模问题的实际情况出发）

《机器学习》（西瓜书）1-3章学习笔记

第一章绪论

基本术语

NFL定理（p8-p9）

第二章模型评估与选择

过拟合与欠拟合（亦称过配或欠配）

从数据集D中产生训练集S和测试集T的几种做法

留出法

交叉验证法

自助法

第一章 绪论

基本术语

NFL定理（p8-p9）

第二章 模型评估与选择

过拟合与欠拟合（亦称过配或欠配）

从数据集D中产生训练集S和测试集T的几种做法

留出法

交叉验证法

自助法

第一章绪论

第二章模型评估与选择