究竟什么是基尼指数
数据挖掘
机器学习
决策树
2022-02-15 05:06:06
1个回答
类只是您用来对一堆对象进行分类的标签。例如,如果您尝试创建一个电子邮件过滤器,您可能有一个spam类和一个non-spam类。
基尼指数用于决策树。决策树中的单个决策称为节点,基尼指数是衡量单个节点“不纯”程度的一种方法。
假设您有一个数据集,其中列出了一组动物的多个属性,并且您试图预测每只动物是否是哺乳动物。您将有两个类mammal, 和not-mammal。您通过询问动物是否是温血动物开始制定决策树,并根据此分割标准将您的数据集分成两组。如果动物是冷血动物,则属于not-mammal该类,但是,如果动物是温血动物,则它可能属于也可能不属于mammal该类。这个新节点(例如,决策)可能包含可能是或可能不是哺乳动物的动物的混合或组(即,组可能包含鸟类和哺乳动物)。mammals 和之间的 50/50 分割non-mammal此节点处的 s 表示该节点不纯(基尼指数为 0.5)。完全纯节点的基尼指数为 0,表示一个节点仅由 1 个类组成。
其它你可能感兴趣的问题