线性模型
概念:目标可表示为特征的加权和
\[
\hat y=w_1x_1+\cdots+w_dx_d+b
\]
其中
- \(\mathbf w\):权重
- \(b\):偏置 / 偏移量 / 截距
- \(\hat y\):估计值
输入特征的仿射变换(线性变换 + 平移)
令\(\mathbf x\in\mathbb{R}^d,\mathbf w\in\mathbb{R}^d\)
\[
\hat y=\mathbf w^\mathsf{T}\mathbf x+b
\]
令\(\mathbf X\in\mathbb{R}^{n\times d}\)为整个数据集的\(n\)个样本的特征集,\(\mathbf{\hat y}\in\mathbb{R}^n\)
\[
\mathbf{\hat y}=\mathbf{Xw}+b
\]
目标:给定\(\mathbf{X}\)及其对应标签\(\mathbf{y}\),求模型参数\(\mathbf w,b\) s.t. 从\(\mathbf X\)的同分布中抽样新样本特征时,新样本预测标签误差尽可能小
困难:存在观测误差,找不到\(n\)样本真实数据集 s.t. \(\forall 1\leqslant i\leqslant n:y^{(i)}=\mathbf{w}^\mathsf{T}\mathbf{x}^{(i)}+b\)