跳转至

损失函数

作用:量化目标的实际值与预测值之间的差距

通常选择非负数作为损失,数值越小损失越小,完美预测时误差为0

平方误差函数

定义:样本\(i\)预测值为\(\hat{y}^{(i)}\),其对应的真实标签为\(y^{(i)}\),平方误差为 $$ l^{(i)}(\mathbf w,b)=\dfrac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^2 $$ zh.d2l.ai/_images/fit-linreg.svg

常数\(\dfrac{1}{2}\)使得求导后系数化为1,简化形式

推广:模型在整个数据集上的质量:训练集样本上的损失均值 $$ L(\mathbf w,b)=\dfrac{1}{n}\sum_{i=1}^nl^{(i)}(\mathbf w,b) $$

推导:

  • 正态分布: $$ X\sim N(\mu,\sigma^2)\Rightarrow P(X=x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{1}{2\sigma^2}(x-\mu)^2\right) $$
  • 噪声:\(y=\mathbf {w^\mathsf Tx}+b+\epsilon\qquad\epsilon\sim N(0,\sigma^2)\)
  • 似然:
\[ \begin{array}{l} L(\mathbf x^{(i)},y^{(i)};\mathbf w,b)=P(\epsilon=y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{1}{2\sigma^2}(y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)^2\right)\\ L(\mathbf X,\mathbf y;\mathbf w,b)=\prod\limits_{i=1}^nL(\mathbf x^{(i)},y^{(i)};\mathbf w,b) \end{array} \]
  • 极大似然:最小化负对数似然(优化一般指最小化) $$ -\ln L(\mathbf X,\mathbf y;\mathbf w,b)=\sum_{i=1}^n\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2\sigma^2}(y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)^2 $$

    在高斯噪声假设下,最小化均方误差 \(\Leftrightarrow\) 线性模型极大似然估计

交叉熵损失

定义:对于任何标签\(\mathbf y\)和模型预测\(\hat{\mathbf y}\),损失函数为 $$ l(\mathbf y,\hat{\mathbf y})=-\sum_{j=1}^qy_j\log \hat{y_j} $$

推导:

  • 模型定义:\(\hat y=P(y=1|x),\ 1-\hat y=P(y=0|x)\)
  • 似然:\(\hat y\)为关于模型参数的函数,似然函数值为得到该预测结果的概率 $$ L(y^{(i)},\hat y_j)=P(y_j|x^{(i)})={\hat y_j}^{y_j}\cdot{(1-\hat y_j)}^{1-y_j}\quad y_j\in\set{0,1} $$ $$ L(\mathbf y,\hat{\mathbf y})=P(\mathbf Y|\mathbf X)=\prod_{i=1}^q{\hat y_j}^{y_j}\cdot{(1-\hat y_j)}^{1-y_j} $$
  • 极大似然: $$ -\ln L(\mathbf y,\hat{\mathbf y})=\sum_{i=1}^nl(\mathbf y^{(i)},\hat{\mathbf y}^{(i)}) $$

    \(P(\mathbf y|\mathbf x)=1\),即正确预测时损失函数不能进一步最小化,但由于标签中噪声的存在或输入特征不够而不可能完美分类