跳转至

神经网络正则化

目的:

  • 深度神经网络结构复杂、参数众多,很容易造成过拟合
  • 为了缓解神经网络在训练过程中出现的过拟合现象,需要采取一些正则化技术来提升神经网络的泛化能力

Dropout

概念:在训练神经网络的过程中随机丢掉一部分神经元来降低神经网络的复杂度,从而防止过拟合

操作:在每次迭代训练中,以一定概率随机屏蔽每一层中的若干神经元,用余下神经元构成的网络继续训练

image.png|300

批归一化

问题:随着神经网络深度的增加,输入数据经过激活函数若干次非线性变换后,其整体分布逐渐向非线性函数的值域上下限两端偏移

作用:通过规范化手段,把神经网络每层中任意神经元的输入值分布改变成均值为0、方差为1的标准正态分布,把偏移较大的分布强制映射为标准正态分布

正则化

损失函数 + 正则化项:

\[ \min\dfrac{1}{n}\sum_{i=1}^n\text{Loss}(y_o,f(W,x_i))+\lambda\times\Phi(W) \]

正则化项\(\Phi(W)\)用参数\(W\)范数表示

  • \(L_0\)范数:\(\Vert W\Vert_0=\sum \text{II}[w_i\not=0]\)
  • \(L_1\)范数:\(\Vert W\Vert_1=\sum|w_i|\)
  • \(L_2\)范数:\(\Vert W\Vert_2=\sum w_i^2\)