封闭箱内的熵

数据挖掘 机器学习 分类 数据
2022-02-22 05:13:00

在此处输入图像描述

我不明白为什么减少不确定性所需的二进制问题的最大数量本质上是 log(T)。如果我在一个盒子里有一个球和 10 个可能的类别,问 log(10) 二进制问题就足以知道哪个是球的类别吗?当然 ???

1个回答

正确的符号是math.ceil(log(T)). 另外,您要问的是/可以通过Binary Search Trees正式解决。您可以轻松地按if-else条件遍历它,并逐步得出正确的结果math.ceil(log(T))

它看起来像:

在此处输入图像描述

只需将球的颜色放在叶节点(最后一个节点)中。您的第一个问题是球落在前 4 个叶节点还是第二组 4 个节点。然后您可以进入第 2 级,依此类推。

BST 最大程度地减少熵。您可以轻松地构建其他不平衡的树,但随后您将需要更多的步骤来获得确定的结果(在某些情况下),而在其他一些情况下则需要更少的步骤。BST 给出了您必须经过的绝对步数才能达到结果。

更多理论在这里