机器学习进阶

本文主要围绕机器学习/统计学习方法进行深层次展开。《统计学习方法》是李航博士所著的关于系统、详细的统计学习相关方法的介绍书籍。主要内容覆盖统计学习方法概论、感知机、k-means,朴素贝叶斯,决策树,逻辑回归,SVM,梯度提升,EM算法,隐马尔可夫,条件随机场等。本文尽可能将所有算法加以实现,注重数理基础与实践相结合,以期更好的效果。建议先修吴恩达《机器学习》课程。

References

机器学习周志华) “西瓜书”,教材

机器学习实战 基于Python的编程练习册

统计学习方法李航) 算法的数理分析代码实现

机器学习训练秘籍吴恩达) 面向工程应用的指南

机器学习训练营

机器学习的一些资料

神经网络与深度学习

《动手学深度学习》 深度学习进阶

AiLearning

機器學習基石机器学习技法林轩田) 进阶教学视频,Notes

徐亦达机器学习课程

机器学习100天

百面机器学习

百面机器学习

Python深度学习

统计学习原理

人工智能

浅谈人工智能

机器学习

机器学习:为了寻找更好数据表示的自动搜索

模式识别

模式识别:从数据中获得规律/模式/特征

数据 = 模式 + 噪声

统计学习要素

模型:构建从输入到输出的一类映射,从而产生假设空间。

策略:按什么样的准则在假设空间中学习最优的模型。

算法:学习模型的具体计算方法。

短见定理

短见定理:过拟合无法彻底避免。

反证:(基本假设:P$\neq$NP)

  • 机器学习通常面临着NP-Hard问题(甚至更难),而有效的学习算法必然在多项式时间内运行完毕。
  • 若可以彻底避免过拟合,则通过经验误差最小化就能获得最优解,意味着我们构造性地证明了“P=NP”。矛盾

机器学习是短视、贪心的。

午餐定理

午餐定理:对完全随机问题,任意学习算法的期望性能一致。(no free lunch

证明:(考虑二分类问题)

积分解耦(分部积分)的原理:

$P(x)表示从非训练集中选取样本x的概率,$(古典概型)

  • $显然与f和h无关$

$P(h|X,a)表示基于训练集X和学习算法a时,产生假设h的概率,$

  • $显然与真实问题f无关$

$\mathbb{I}(h(x)\neq f(x))表示基于样本x时假设h与真实f不吻合的布尔判断$,

  • 这是一个纯判断,不含概率,因此可以首先积分
  • 当我们引入了对$f$的积分之后,对特定问题的积分被解耦

$\sum _{f}\mathbb{I}(h(x)\neq f(x))相当于求{0,1}^{|\chi|}$(幂集)

  • 若$f$均匀分布,则一半的f对x的预测与h(x)不一致,因此要乘上1/2

NFL定理实际上构想了一个纯粹幻想空间。
完全随机的问题等价于一个没有任何模式(Pattern)的问题,机器学习不可能从真随机之中获得规律。

通过幻想学的蛋形图来直观感受一下短见定理和午餐定理的约束:(More

1547752453147

由直观的图像我们可以看出:

  • 极端的欠拟合导致午餐现象
  • 不考虑误差,过拟合和欠拟合的泛化能力与它们的名义是相反的(过拟合的泛化能力小,欠拟合的泛化能力大)
    若考虑误差,过拟合和欠拟合产生的误差类型是不同的(过拟合对变错,欠拟合错变对)
  • 显然,增大数据集能有效解决短视(过拟合)现象
  • 机器学习的过程是从想界到数据边界的收缩过程,其目标是尽可能与实界重合
  • 如果增加收缩能力(即学习能力,比如根据多个复杂原理进行收缩),则能有效解决欠拟合现象

注:一般认为想界和实界是固定的。

聚类分布律

聚类分布律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。

流形分布律

流形分布律:不同的类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些类区分。

极大似然律

极大似然律:给定概率模型,调参,使得样本空间的概率最大化。

最大熵原理

最大熵原理:给定概率模型,调参,使得模型的熵最大化。

最大熵模型| PLM’s Notes | 好好学习,天天笔记

最大熵模型| Kubi Code’Blog

特征工程

Garbage in, garbage out.

特征工程:对原始数据进行一系列工程处理,提炼出特征。

特征工程旨在去除原始数据中的杂志和沉淀,设计更高效的特征以刻画联想规则。

结构化数据(张量):结构化数据可以看成关系型数据库的一张表,每列都有清洗的定义,包含连续、离散两种类型;每行代表一个样本。

非结构化数据(流形):非结构化数据包括文本、图像、音频、视频等,其包含的信息丰富、复杂、抽象、多变。

特征归一化

区间缩放和正态缩放比较常用。

归一化对于决策树模型不适用,因为节点分裂只与信息增益比例有关。(归一化不改变比例)

区间缩放

Min-Max Scaling 又称为 Rescaling,区间缩放的公式为:

缩放后的特征将分布在 [0,1] 区间。

正态缩放

(Z-Score) Standardization,缩放后的特征将服从标准正态分布

μ,δ分别为对应特征$x$向量的均值和标准差。缩放后的特征将分布在 (−Inf,Inf) 区间。

其它归一化手段

均态缩放

Mean normalization是区间缩放和正态缩放相结合的变种,其公式为:

μ为$x$向量的均值,缩放后的特征将分布在 (-1,1) 区间。

度量缩放

Scaling to unit length相对均态缩放,保留了更多原向量的面貌。其公式为:

缩放后的特征将分布在某个不定小区间。$||x||$是范数(Norm)。(More

若取$||x||=|x|$绝对值,则缩放后的特征将分布在 [-1,1] 区间。

离散编码

类别型特征(Categorical Feature):指性别(男、女)、血型(A、B、AB、O)等有限取值的离散特征。

热编码

热编码(One-hot Encoding):将实体映射为命中向量。(向量维数=类别数)

使用稀疏向量来节省空间。配合特征选择来降维。

序编码

序编码(Ordinal Encoding):按类别关系映射数值关系。

二进制编码

二进制编码(Binary Encoding):先编码为数字ID,然后映射为二进制数。

More:Helmert Contrast,Sum Contrast,Ploynomial Contrast,Backward Difference Contrast.

特征组合

为了提高复杂关系的拟合能力,在特征工程经常会把一阶离散特征两两组合,构成高阶组合特征。

模型评估

1558719286890

逻辑回归

高维空间易过拟合。

感知机

机器学习-神经网络基础-感知机有基础介绍。

K-means

请问如何用数学方法证明K-means是EM算法的特例?

高维空间欧式距离度量失效。

KNN

KNN和K-mean有什么不同? - 知乎(但感觉k-means完还是要kNN一下才能输出预测结果 anyway。。)

决策树

SVM

概率图

0%