机器算法验证 - 基本基尼杂质推导 - 吾爱随笔录

基本基尼杂质推导

机器算法验证基尼

2022-03-03 10:20:47

来自维基百科： https ://en.wikipedia.org/wiki/Decision_tree_learning

我无法理解以下两个步骤：

第一个方程：。这不会立即变得明显，因为“被选择的概率乘以错误分类的概率”。相反，它在我看来就像“被选择的概率乘以其他人被选择的概率”（但不一定是错误的） $f_i(1 - f_i)$
最后一个简化的算术让我望而却步：如何从到 $1 - \sum(f_i^2)$ $\sum(f_if_k)$

提示赞赏。

4个回答

我认为最好以相反的顺序回答您的问题，因为我们将通过回答您的第二个问题回到您的第一个问题。

问题2

想象一下，您有一个概率分布函数 ( )，它按如下方式分布其概率： $f_i$

然后我可以对概率（）进行平方并得到： $f_i^2$

另一种看待它的方法是将每个概率分布沿网格的轴放置。现在，每个单元格代表沿各自轴的函数的乘积。

网格本身总和为 1，就像您在两个掷骰子的概率表中看到的一样。应该清楚的是，1 减去对角线概率之和与下面未突出显示的方块相同。

如果我们调用其中一个轴 k 来区分它，但仍然让它呈现相同的功能，那么我们可以做出声明。

$1-\sum f_i^2$ = $\sum_{i \neq k} f_if_k$

问题 1

我们现在可以使用回答问题 2 的一些直觉来驱动问题 1 的直觉。

让我们从问题 2 中获取同一张表，但改变两个轴的含义。在一个轴上，我们将拥有对象的标签，而在另一轴上，我们将拥有实际的对象。

举一个具体的例子，假设我们有一碗水果：苹果、橙子和梨。在另一个碗中，我们将有对应于苹果、橙子和梨的标签，其比例与实际对象相同。

如果我们然后查看随机选择每个的概率，我们会得到以下分布。

现在我们想看看联合分布。Geni 杂质告诉我们随机选择一个对象和一个随机标签的概率，这是一个不正确的匹配。Geni 杂质是黑色阴影区域中概率的总和。这些是标签与对象不匹配的地方，因此是杂质。

这对于问题 2 的答案应该看起来很熟悉。如果问题 2 的解释使您确信，您应该能够通过您提供的代数向后工作，看到它也等于 $1-\sum f_i^2$ $\sum f_i(1-f_i)$

我不知道代数，但你可以用概率论据证明身份。如果我掷两个面的骰子，并且面的概率是，那么双倍的概率是。因此是我滚动不同值的概率。但换一种说法，比如说，我得到后跟的概率是。对所有可能性求和，我得到滚动不同结果的概率：，并且证明了身份。 $m$ $i$ $f_i$ $\sum f_i^2$ $1-\sum f_i^2$ $i$ $j$ $f_if_j$ $i \neq j$ $\sum f_if_j$

至于第一点，如果您扮演面出现的概率为。假设我必须猜测值，我通过滚动我自己的具有相同重量的骰子来做到这一点。我猜错的概率，以值为真为条件，是。我弄错的概率，对可能的值求和，是。 $m$ $f_i$ $i$ $i$ $1-f_i$ $\sum f_i(1-f_i)$

1) 请记住，分类是随机完成的，与值的频率成正比。被错误分类为概率。 $i$ $(1-f_i)$

2)总和为 1。因此，如果我对所有求和，则等于 1*1。因此，如果我仅将这等于的那些相加。 $f_i$ $f_if_j$ $i\neq j$ $1- \sum f_if_i$

对不起，简短，用我的电话回答。评论问题。

基尼指数

主要思想在这里。我们可以基于这个 statquest做一个例子。

假设有一台可以检测心脏病 (HD) 的机器。机器可以预测 HD 30% 的时间。以下是我们的样本：

	高清	！高清
机器	30%	70%

这意味着以下情况是可能的：

机器分类为 HD 并且是 HD (P = 0.3*0.3)
机器分类为 !HD 为 !HD (P = 0.7*0.7)
机器分类为 HD 但它是 !HD
机器分类为 !HD 但它是 HD

我们祈祷案例 3 和 4 的发生频率降低。所有概率之和为 1。P(3&4)因此由1-(0.3^2)-(0.7^2)=0.42 给出。P(3&4) 是杂质或机器的预测有多糟糕，AKA GINI=0.42。

另一种方法是检查某人是否因胸痛 (CP) 而捂着胸口，然后根据概率数据猜测他是否患有 HD。以下是我们的样本。对于每种情况，我们都会计算 GINI。然后我们取它的平均值（假设样本大小相似），这使用 CP 来估计 GINI 杂质来预测 HD。

	高清	！高清	基尼
!CP	25%	75%	0.375
CP	80%	20%	0.32
平均	不适用	不适用	0.38

杂质越小越好。所以我们决定不买机器（GINI=0.42），我们可以只使用CP作为指标（GINI=0.38）。

PS
这也是对决策树每个节点发生的情况的解释，这是我遇到GINI指数的地方。

其它你可能感兴趣的问题

上一篇如果我证明估计量θ2θ2是无偏的，这是否证明参数的估计量是无偏的？θθ 下一篇如何计算 R 中优势比的 p.value？