机器学习:决策树_ID3_信息增益

机器学习:决策树,ID3,信息增益。ID3决策树,通过信息增益计算方法选定特征作为节点,构成决策树。

信息增益计算公式:

g(D,A) 信息增益值,越大表示特征对模型影响越大。

H(D) 信息熵,目标值的信息熵和。

H(D|A) 条件熵,特征样本的熵乘以特征样本的占比再取负号,最后求和。

ID3决策树,计算每个特征的信息增益,每次取一个最大值作为节点,再进行下一次信息增益,再选下一个节点,重复直至完成决策树的构建。

信息熵指向目标值越大越,熵越大越好。条件熵指向特征,熵越小越好,越小表示数据越确定,信息量越小,越适合去作为模型的特征,去预测目标值(这个也是信息增益的BUG,如果该特征分类越多,按计算公式中乘以比例的结果,条件熵将会越小,如果用数据集中无意义的ID作为特征将会是一个错误)。


决策树

信息熵