损失函数
作用:量化目标的实际值与预测值之间的差距
通常选择非负数作为损失,数值越小损失越小,完美预测时误差为0
平方误差函数¶
定义:样本\(i\)预测值为\(\hat{y}^{(i)}\),其对应的真实标签为\(y^{(i)}\),平方误差为 $$ l^{(i)}(\mathbf w,b)=\dfrac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^2 $$
常数\(\dfrac{1}{2}\)使得求导后系数化为1,简化形式
推广:模型在整个数据集上的质量:训练集样本上的损失均值 $$ L(\mathbf w,b)=\dfrac{1}{n}\sum_{i=1}^nl^{(i)}(\mathbf w,b) $$
推导:
- 正态分布: $$ X\sim N(\mu,\sigma^2)\Rightarrow P(X=x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{1}{2\sigma^2}(x-\mu)^2\right) $$
- 噪声:\(y=\mathbf {w^\mathsf Tx}+b+\epsilon\qquad\epsilon\sim N(0,\sigma^2)\)
- 似然:
\[
\begin{array}{l}
L(\mathbf x^{(i)},y^{(i)};\mathbf w,b)=P(\epsilon=y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{1}{2\sigma^2}(y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)^2\right)\\
L(\mathbf X,\mathbf y;\mathbf w,b)=\prod\limits_{i=1}^nL(\mathbf x^{(i)},y^{(i)};\mathbf w,b)
\end{array}
\]
- 极大似然:最小化负对数似然(优化一般指最小化)
$$
-\ln L(\mathbf X,\mathbf y;\mathbf w,b)=\sum_{i=1}^n\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2\sigma^2}(y^{(i)}-\mathbf{w^\mathsf Tx}^{(i)}-b)^2
$$
在高斯噪声假设下,最小化均方误差 \(\Leftrightarrow\) 线性模型极大似然估计
交叉熵损失¶
定义:对于任何标签\(\mathbf y\)和模型预测\(\hat{\mathbf y}\),损失函数为 $$ l(\mathbf y,\hat{\mathbf y})=-\sum_{j=1}^qy_j\log \hat{y_j} $$
推导:
- 模型定义:\(\hat y=P(y=1|x),\ 1-\hat y=P(y=0|x)\)
- 似然:\(\hat y\)为关于模型参数的函数,似然函数值为得到该预测结果的概率 $$ L(y^{(i)},\hat y_j)=P(y_j|x^{(i)})={\hat y_j}^{y_j}\cdot{(1-\hat y_j)}^{1-y_j}\quad y_j\in\set{0,1} $$ $$ L(\mathbf y,\hat{\mathbf y})=P(\mathbf Y|\mathbf X)=\prod_{i=1}^q{\hat y_j}^{y_j}\cdot{(1-\hat y_j)}^{1-y_j} $$
- 极大似然:
$$
-\ln L(\mathbf y,\hat{\mathbf y})=\sum_{i=1}^nl(\mathbf y^{(i)},\hat{\mathbf y}^{(i)})
$$
\(P(\mathbf y|\mathbf x)=1\),即正确预测时损失函数不能进一步最小化,但由于标签中噪声的存在或输入特征不够而不可能完美分类