机器学习:决策树_C4.5_信息增益率
机器学习,决策树,C4.5,信息增益率。C4.5解决ID3偏向分类过多的特征的问题。C4.5在信息增益基础上计算信息增益率,信息增益率越大,特征越适合作为树的节点。计算方法:信息增益率 = 信息增益 / 特征熵。
公式:

Gain_Ratio(D,a) 信息增益率。
Gain(D,a) 信息增益。
IV(a) 特征熵。ID3的熵是针对目标值,特征熵则是针对特征,用以描述特征数据的确定性。在这里熵越大表示特征越不确定,分类越多的特征越不确定,特征熵越大信息增益率则越小。一般情况下选择信息增益率大的特征。计算公式:

ID3
信息熵