深度学习中的正则化

深度学习中的正则化。

References

深度学习 第5,7章

机器学习进阶

机器学习周志华

Introduction

在机器学习中,许多策略显式地被设计来减少测试误差

正则化的典型策略包括:

  • 约束:模型限制,函数惩罚
  • 偏好:先验知识,奥卡姆剃刀(偏好是预约束)
  • 集成:Bagging,Boosting

正则化通常涉及trade-off,也就是权衡(方差+偏差)。一个好的正则化能够提高泛化能力,并且不显著降低表示能力。

统计学习原理选讲

机器学习进阶中我曾做过一个统计学习基本原理的归纳。这里介绍其中的两个,它们与正则化密切相关。这两个定理都摘自西瓜书。

短见定理

短见定理:过拟合无法彻底避免。

反证:(基本假设:P$\neq$NP)

  • 机器学习通常面临着NP-Hard问题(甚至更难),而有效的学习算法必然在多项式时间内运行完毕。
  • 若可以彻底避免过拟合,则通过经验误差最小化就能获得最优解,意味着我们构造性地证明了“P=NP”。矛盾

机器学习是短视、贪心的。

午餐定理

午餐定理:对完全随机问题,任意学习算法的期望性能一致。(no free lunch

证明:(考虑二分类问题)

积分解耦(分部积分)的原理:

$P(x)表示从非训练集中选取样本x的概率,$(古典概型)

  • $显然与f和h无关$

$P(h|X,a)表示基于训练集X和学习算法a时,产生假设h的概率,$

  • $显然与真实问题f无关$

$\mathbb{I}(h(x)\neq f(x))表示基于样本x时假设h与真实f不吻合的布尔判断$,

  • 这是一个纯判断,不含概率,因此可以首先积分
  • 当我们引入了对$f$的积分之后,对特定问题的积分被解耦

$\sum _{f}\mathbb{I}(h(x)\neq f(x))相当于求{0,1}^{|\chi|}$(幂集)

  • 若$f$均匀分布,则一半的f对x的预测与h(x)不一致,因此要乘上1/2

NFL定理实际上构想了一个纯粹幻想空间。
完全随机的问题等价于一个没有任何模式(Pattern)的问题,机器学习不可能从真随机之中获得规律。

综合比较*

通过幻想学的蛋形图来直观感受一下短见定理和午餐定理的约束:(More

1547752453147

由直观的图像我们可以看出:

  • 极端的欠拟合导致午餐现象
  • 不考虑误差,过拟合和欠拟合的泛化能力与它们的名义是相反的(过拟合的泛化能力小,欠拟合的泛化能力大)
    若考虑误差,过拟合和欠拟合产生的误差类型是不同的(过拟合对变错,欠拟合错变对)
  • 显然,增大数据集能有效解决短视(过拟合)现象
  • 机器学习的过程是从想界到数据边界的收缩过程,其目标是尽可能与实界重合
  • 如果增加收缩能力(即学习能力,比如根据多个复杂原理进行收缩),则能有效解决欠拟合现象

注:一般认为想界和实界是固定的。


问:为什么最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型?【P198】

当大型模型过拟合时,其表示的约束一般都在实界内部,因此,适度的正则化几乎总是能够保持在实界以内,从而减小方差,并且不增加偏差。

但这只是形象的解释。

容量

假设空间

样本空间(sample space):特征(feature)所张成空间

训练集(training set):由大量有特征的样本构成的集合,样本空间的子集

标记空间(label space):由大量标记(label)构成的集合

假设空间(hypothesis space):特征-标记的所有可能组合构成的空间

  • 假设空间可以看作样本空间与标记空间的笛卡尔积的组合空间

版本空间(version space):假设空间中,与训练集表现一致的子空间

Imgur

选择假设空间可以控制训练模型的容量。例如:

  • 线性回归:所有线性函数
  • 广义线性回归:多项式函数

由于广义线性回归的无穷形式,基是完备的,因此获得充盈的假设空间。


容量

简单来说,模型的容量是指其拟合各种函数的能力

约束

参数范数惩罚

L2正则(岭回归)

L1正则(Lasso)

注:$\theta = {\boldsymbol{w},C}$,C是无须正则化的参数(如:偏置)。

偏好

集成

0%