因果推理
辛普森悖论:在某些情况下,忽略潜在的“第三个变量”可能会改变已有的结论
克服辛普森悖论:厘清真假关联
关联:
- 因果关联:一个变量是另一个变量的原因
- 混淆关联:两个变量存在共同的原因变量
- 选择关联:两个变量存在共同的结果变量
联合概率分布:\(P(x_1,x_2,\cdots,x_d)=\prod\limits_{j=1}^dP(x_j\vert\ x_{pa_{\set j}})\)
干预:改变明确存在关联关系的某变量取值,研究变量取值改变对结果变量的影响
"do"算子:计算当系统中一个变量取值发生变化、其它变量保持不变时,系统输出结果是否变化。\(P(Y=y\vert do(X=x))\)表示对\(X\)进行干预,固定其值为\(x\)时,\(Y=y\)的概率
因果效应差:为考虑用药(X)对恢复(Y)的效应查,对X进行操控有
\(P(Y=1|do(X=1))-P(Y=1|do(X=0))\)
计算\(P(Y=1|do(X=1))\)时,将指向X的边移除得到操纵图\(P_m\)
则\(P(Y=y|do(X=x))=P_m(Y=y|X=x)\).
性质:
- \(P(Z=z)=P_m(Z=z)\)
- \(P(Y=y|X=x,Z=z)=P_m(Y=y|X=x,Z=z)\)
化简:
\[
\begin{array}{l}
P(Y=y|do(X=x))=P_m(Y=y|X=x)\\
=\sum\limits_zP_m(Y=y|X=x,Z=z)P_m(Z=z|X=x)\\
=\sum\limits_zP_m(Y=y|X=x,Z=z)P_m(Z=z)\\
=\sum\limits_zP(Y=y|X=x,Z=z)P(Z=z)
\end{array}
\]
结论:因果效应:给定因果图G,PA表示X的父节点集合,则X对Y的因果效应为\(P(Y=y|do(X=x))=\sum\limits_{z}P(Y=y|X=x,PA=z)P(PA=z)\)