机器学习:决策树_Cart_基尼指数

机器学习,决策树,Cart,基尼指数。Cart决策树即可处理分类问题,也可以处理回归问题。基尼指数用于处理分类问题。

基尼值,抽取二个样本,不同特征对应的目标值不一样的概率。公式:

基尼值计算时是逐个特征进行计算,每个特征有多个分类,结合目标值,概率相乘再加总。为什么公式可写成1减去?因为基尼值的概率有两种,要么不一样,要么一样,加起来就是1,因此可简化公式。

基尼指数是在基尼值基础上乘以系数,系数就是特征分类的概率。公式:

基尼值是目标值不一样的概率,越大表示数据越不确定,越小数据越确定。基尼指数也一样,越小表示特征越适合作为树节点。