来自维基百科: https ://en.wikipedia.org/wiki/Decision_tree_learning
我无法理解以下两个步骤:
第一个方程: 。这不会立即变得明显,因为“被选择的概率乘以错误分类的概率”。相反,它在我看来就像“被选择的概率乘以其他人被选择的概率”(但不一定是错误的)
最后一个简化的算术让我望而却步:如何从到
提示赞赏。
来自维基百科: https ://en.wikipedia.org/wiki/Decision_tree_learning
我无法理解以下两个步骤:
第一个方程: 。这不会立即变得明显,因为“被选择的概率乘以错误分类的概率”。相反,它在我看来就像“被选择的概率乘以其他人被选择的概率”(但不一定是错误的)
最后一个简化的算术让我望而却步:如何从到
提示赞赏。
我认为最好以相反的顺序回答您的问题,因为我们将通过回答您的第二个问题回到您的第一个问题。
问题2
想象一下,您有一个概率分布函数 ( ),它按如下方式分布其概率:
然后我可以对概率()进行平方并得到:
另一种看待它的方法是将每个概率分布沿网格的轴放置。现在,每个单元格代表沿各自轴的函数的乘积。
网格本身总和为 1,就像您在两个掷骰子的概率表中看到的一样。应该清楚的是,1 减去对角线概率之和与下面未突出显示的方块相同。
如果我们调用其中一个轴 k 来区分它,但仍然让它呈现相同的功能,那么我们可以做出声明。
=
问题 1
我们现在可以使用回答问题 2 的一些直觉来驱动问题 1 的直觉。
让我们从问题 2 中获取同一张表,但改变两个轴的含义。在一个轴上,我们将拥有对象的标签,而在另一轴上,我们将拥有实际的对象。
举一个具体的例子,假设我们有一碗水果:苹果、橙子和梨。在另一个碗中,我们将有对应于苹果、橙子和梨的标签,其比例与实际对象相同。
如果我们然后查看随机选择每个的概率,我们会得到以下分布。
现在我们想看看联合分布。Geni 杂质告诉我们随机选择一个对象和一个随机标签的概率,这是一个不正确的匹配。Geni 杂质是黑色阴影区域中概率的总和。这些是标签与对象不匹配的地方,因此是杂质。
这对于问题 2 的答案应该看起来很熟悉。如果问题 2 的解释使您确信,您应该能够通过您提供的代数向后工作,看到它也等于
我不知道代数,但你可以用概率论据证明身份。如果我掷两个面的骰子,并且面的概率是,那么双倍的概率是。因此是我滚动不同值的概率。但换一种说法,比如说,我得到后跟的概率是。对所有可能性求和,我得到滚动不同结果的概率:,并且证明了身份。
至于第一点,如果您扮演面出现的概率为。假设我必须猜测值,我通过滚动我自己的具有相同重量的骰子来做到这一点。我猜错的概率,以值为真为条件,是。我弄错的概率,对可能的值求和,是。
1) 请记住,分类是随机完成的,与值的频率成正比。 被错误分类为概率。
2)总和为 1。因此,如果我对所有求和,则等于 1*1。因此,如果我仅将这等于的那些相加。
对不起,简短,用我的电话回答。评论问题。
基尼指数
主要思想在这里。我们可以基于这个 statquest做一个例子。
假设有一台可以检测心脏病 (HD) 的机器。机器可以预测 HD 30% 的时间。以下是我们的样本:
高清 | !高清 | |
---|---|---|
机器 | 30% | 70% |
这意味着以下情况是可能的:
我们祈祷案例 3 和 4 的发生频率降低。所有概率之和为 1。P(3&4)
因此由1-(0.3^2)-(0.7^2)
=0.42 给出。P(3&4)
是杂质或机器的预测有多糟糕,AKA
GINI=0.42。
另一种方法是检查某人是否因胸痛 (CP) 而捂着胸口,然后根据概率数据猜测他是否患有 HD。以下是我们的样本。对于每种情况,我们都会计算 GINI。然后我们取它的平均值(假设样本大小相似),这使用 CP 来估计 GINI 杂质来预测 HD。
高清 | !高清 | 基尼 | |
---|---|---|---|
!CP | 25% | 75% | 0.375 |
CP | 80% | 20% | 0.32 |
平均 | 不适用 | 不适用 | 0.38 |
杂质越小越好。所以我们决定不买机器(GINI=0.42),我们可以只使用CP作为指标(GINI=0.38)。
PS
这也是对决策树每个节点发生的情况的解释,这是我遇到GINI指数的地方。