究竟什么是基尼指数

数据挖掘 机器学习 决策树
2022-02-15 05:06:06

我正在阅读本网站上的教程。在这里,我可以看到作者正在解释基尼指数的推导。我想了解以下术语

  • 团体
  • 类:据我了解,它表示我们应该分类的数据中标签的可能值。如果我错了,请纠正我。

此处的网站声明它是 1 与创建拆分时数据集中分类值的概率之间的差异。但是第一个链接确实为简单的推导增加了一些要点。任何人都可以用外行的方式解释基尼指数的推导吗?

1个回答

只是您用来对一堆对象进行分类的标签例如,如果您尝试创建一个电子邮件过滤器,您可能有一个spam类和一个non-spam类。

基尼指数用于决策树。决策树中的单个决策称为节点,基尼指数是衡量单个节点“不纯”程度的一种方法。

假设您有一个数据集,其中列出了一组动物的多个属性,并且您试图预测每只动物是否是哺乳动物。您将有两个类mammal, 和not-mammal您通过询问动物是否是温血动物开始制定决策树,并根据此分割标准将您的数据集分成两组。如果动物是冷血动物,则属于not-mammal该类,但是,如果动物是温血动物,则它可能属于也可能不属于mammal该类。这个新节点(例如,决策)可能包含可能是或可能不是哺乳动物的动物的混合或组(即,组可能包含鸟类和哺乳动物)。mammals 和之间的 50/50 分割non-mammal此节点处的 s 表示该节点不纯(基尼指数为 0.5)。完全纯节点的基尼指数为 0,表示一个节点仅由 1 个类组成。