基本基尼杂质推导

机器算法验证 基尼
2022-03-03 10:20:47

来自维基百科: https ://en.wikipedia.org/wiki/Decision_tree_learning

在此处输入图像描述

我无法理解以下两个步骤:

  1. 第一个方程: 这不会立即变得明显,因为“被选择的概率乘以错误分类的概率”。相反,它在我看来就像“被选择的概率乘以其他人被选择的概率”(但不一定是错误的)fi(1fi)

  2. 最后一个简化的算术让我望而却步:如何从1(fi2)(fifk)

提示赞赏。

4个回答

我认为最好以相反的顺序回答您的问题,因为我们将通过回答您的第二个问题回到您的第一个问题。

问题2

想象一下,您有一个概率分布函数 ( ),它按如下方式分布其概率:fi

在此处输入图像描述

然后我可以对概率()进行平方并得到:fi2

在此处输入图像描述

另一种看待它的方法是将每个概率分布沿网格的轴放置。现在,每个单元格代表沿各自轴的函数的乘积。

在此处输入图像描述

网格本身总和为 1,就像您在两个掷骰子的概率表中看到的一样。应该清楚的是,1 减去对角线概率之和与下面未突出显示的方块相同。

在此处输入图像描述

如果我们调用其中一个轴 k 来区分它,但仍然让它呈现相同的功能,那么我们可以做出声明。

在此处输入图像描述

1fi2 =ikfifk

问题 1

我们现在可以使用回答问题 2 的一些直觉来驱动问题 1 的直觉。

让我们从问题 2 中获取同一张表,但改变两个轴的含义。在一个轴上,我们将拥有对象的标签,而在另一轴上,我们将拥有实际的对象。

举一个具体的例子,假设我们有一碗水果:苹果、橙子和梨。在另一个碗中,我们将有对应于苹果、橙子和梨的标签,其比例与实际对象相同。

在此处输入图像描述

如果我们然后查看随机选择每个的概率,我们会得到以下分布。

在此处输入图像描述

现在我们想看看联合分布。Geni 杂质告诉我们随机选择一个对象和一个随机标签的概率,这是一个不正确的匹配。Geni 杂质是黑色阴影区域中概率的总和。这些是标签与对象不匹配的地方,因此是杂质。

在此处输入图像描述

这对于问题 2 的答案应该看起来很熟悉。如果问题 2 的解释使您确信,您应该能够通过您提供的代数向后工作,看到它也等于1fi2fi(1fi)

我不知道代数,但你可以用概率论据证明身份。如果我掷两个面的骰子,并且面的概率是,那么双倍的概率是因此是我滚动不同值的概率。但换一种说法,比如说,我得到后跟的概率是对所有可能性求和,我得到滚动不同结果的概率:,并且证明了身份。mififi21fi2ijfifjijfifj

至于第一点,如果您扮演出现的概率为假设我必须猜测值,我通过滚动我自己的具有相同重量的骰子来做到这一点。我猜错的概率,以值为真为条件,是我弄错的概率,对可能的值求和,是mfiii1fifi(1fi)

1) 请记住,分类是随机完成的,与值的频率成正比。 被错误分类为概率i(1fi)

2)总和为 1。因此,如果我对所有求和,则等于 1*1。因此,如果我仅将这等于的那些相加。fififjij1fifi

对不起,简短,用我的电话回答。评论问题。

基尼指数

主要思想在这里我们可以基于这个 statquest做一个例子。

假设有一台可以检测心脏病 (HD) 的机器。机器可以预测 HD 30% 的时间。以下是我们的样本:

高清 !高清
机器 30% 70%

这意味着以下情况是可能的:

  1. 机器分类为 HD 并且是 HD (P = 0.3*0.3)
  2. 机器分类为 !HD 为 !HD (P = 0.7*0.7)
  3. 机器分类为 HD 但它是 !HD
  4. 机器分类为 !HD 但它是 HD

我们祈祷案例 3 和 4 的发生频率降低。所有概率之和为 1。P(3&4)因此由1-(0.3^2)-(0.7^2)=0.42 给出。P(3&4) 是杂质或机器的预测有多糟糕,AKA GINI=0.42

另一种方法是检查某人是否因胸痛 (CP) 而捂着胸口,然后根据概率数据猜测他是否患有 HD。以下是我们的样本。对于每种情况,我们都会计算 GINI。然后我们取它的平均值(假设样本大小相似),这使用 CP 来估计 GINI 杂质来预测 HD。

高清 !高清 基尼
!CP 25% 75% 0.375
CP 80% 20% 0.32
平均 不适用 不适用 0.38

杂质越小越好。所以我们决定不买机器(GINI=0.42),我们可以只使用CP作为指标(GINI=0.38)。

PS
这也是对决策树每个节点发生的情况的解释,这是我遇到GINI指数的地方。