决策树

概念:决策树将分类问题分解为若干基于单个信息的推理任务,采用树状结构逐步完成

决策判断

  • 非叶子节点:对分类目标在某个属性上的一个判断
  • 分支:基于该属性做出的一个判断
  • 叶子节点:分类结果

    决策树可以看作一系列以叶子节点为输出的决策规则

构建:决定划分属性的==顺序==选择,性能好的决策树随着划分不断进行,决策树分支结点样本集的“纯度”会越来越高

  • 信息熵:”纯度“衡量指标,信息熵越大,说明集合的不确定性越大,“纯度”越低
    • 定义:\(K\)个信息组成样本集合\(D\),记第\(k\)个信息发生的概率为\(p_k(1\leqslant k\leqslant K)\) \(\sum p_k=1\)
\[ E(D)=-\sum_{k=1}^kp_k\log_2p_k \]
  • 信息增益:选择属性划分样本集前后信息熵的减少量称为信息增益(衡量样本集合不确定性减少的程度)
    • 定义:属性取值\(a_i\)划分出的子样本记为\(D_i\),样本子集包含的样本数记作\(|D_i|\)
\[ \text{Gain}(D,A)=E(D)-\sum_{i=1}^n\dfrac{|D_i|}{|D|}E(D_i) \]

越靠近根节点,区分度越大

  • 问题:信息增益偏向选择分支多的属性(导致过拟合)
  • 解决:对分支过多进行惩罚
    • 信息:分行为本身带来的信息
\[ \text{info}=-\sum_{i=1}^n\dfrac{|D_i|}{|D|}\log_2\dfrac{|D_i|}{|D|} \]
\[ \text{Gain-ratio}=\text{Gain}(D,A)/\text{info} \]