PCA

思路:通过分析找到数据特征的主要成分,使用这些主要成分来代替原始数据;将d维特征数据映射到l维空间,去除数据的冗余性,将原始数据向这些数据方差最大的方向进行投影

主成分分析要求“降维后的结果要保持原始数据的原有结构”(要求方差结构不变)

方差:样本数据的波动程度,数值上等于各个数据与样本均值之差的平方和之平均数

var(X)=1n1i=1n(xiu)2

协方差:衡量两个变量之间的相关度

cov(X,Y)=1n1i=1n(xiE(X))(yiE(Y))

cov(X,Y)为正:正相关,为负:负相关,为0:不相关

皮尔逊相关系数:

corr(X,Y)=cov(X,Y)var(X)var(Y)=cov(X,Y)σxσy

推导:

保持方差:向投影后方差最大的方向投影

假设有nd维样本数据所构成的集合D={x1,,xn},其中xi(1in)Rd,表示为Xn×d;投影目标为降维数据YRn×l,求映射矩阵WRd×l s.t. Y=XW 降维后Y方差为 var(Y)=1n1tr(YTY)=tr(WT1n1XTXW) 记降维前样本数据X协方差矩阵为 Σ=1n1XTX 则优化目标 maxWtr(WTΣW) 约束:标准化wiTwi=1i{1,,l}

优化方法:Lagrange乘子法 L(W,λ)=tr(WTΣW)i=1lλi(wiTwi1) Lwi=0Σwi=λiwiwiΣ特征向量,λi为特征值.

步骤:

  • 对于每个样本数据xi进行中心化处理:xi=xiμ,μ=1nxi
  • 计算原始样本数据的协方差矩阵:Σ=1n1XTX
  • 对协方差矩阵Σ进行特征值分解,对所得特征根进行排序:λ1λ2λl
  • 取前l个最大特征根所对应的特征向量w1,,wl组成映射矩阵

应用:特征人脸法