是否可以使用 SD 代替熵?

机器算法验证 标准差 大车 无监督学习 信息论
2022-03-26 13:47:33

在课堂上讨论决策树时,我的老师谈到了熵这个话题。我已经理解了熵的目的(还没有理解公式的来源)。H(X)=ip(xi)logp(xi)

但无论如何,我想知道是否有一种更简单的方法可以说拥有(3 个蓝色 m&ms,3 个红色 m&ms,3 个橙色 m&ms,3 个黄色 m&ms)比拥有(1 个蓝色 m&m,2 个红色 m&ms,3 个橙色 m&ms, 6 黄色 m&ms)。

为什么我们不能只计算标准差?标准差越高,熵越小。

如果我在这里做,

  • CASE1:1个蓝色m&m,2个红色m&ms,3个橙色m&ms,6个黄色m&ms

    • x¯=(1+2+3+6)/4=3
    • sx=(13)2+(23)2+(33)2+(36)2=14
  • CASE2:3个蓝色m&ms,3个红色m&ms,3个橙色m&ms,3个黄色m&ms

    • x¯=(3+3+3+3)/4==3
    • sx=(33)2+(33)2+(33)2+(33)2=0

再一次,SD越小,熵越大,这在这里成立。

2个回答

为什么我们不能只计算标准差?

这就是为什么。让我们比较一下熵和方差的公式:

  • H(X)=xp(x)logp(x)=E[logp(X)]
  • var(X)=E[(XE[X])2]

所以请注意,熵不关心可能取的值,它只关心分布本身,而方差确实关心的值。此外,对于方差,变量必须是数字,而熵则不是这样。这两个属性都使熵成为计算信息增益的一个很好的候选者XX

要更深入地了解熵和其他信息论度量,您可以在 math.SE 上阅读此问题。

在统计和相关领域的背景下比较标准差时,我认为重要的是要认识到熵概念的两个概念之间的区别作为变性、波动性、混沌的量度(这个含义通常隐含在物理学中和类似的域)和熵作为消息中平均信息的度量(这个含义通常隐含在域中,基于香农的信息理论)。然而,尽管概念之间存在明显的表面差异,但上述两个维度反映了两者之间的密切相似之处基于物理的熵和基于信息论的熵概念。关于这个主题的讨论超出了我的回答范围,但这篇文章恕我直言是一个好的开始。

您感到困惑的熵公式来自信息理论(请参阅本节),并且是通过信息增益概念使用熵的基础(请注意公式中的相似性)。如果我理解正确,所有这些类型的熵都是动态系统中基于数学的广义熵概念的特定(上下文)案例

关于您关于可能使用标准偏差 (SD)作为决策树的替代度量的特定问题,我不得不说以下几点:

  • 的,可以使用 SD 代替(信息增益,更准确);
  • 似乎您关于希望将更高的 SD作为属性拆分标准的说法是错误的 - 您需要更高的信息增益,可以用标准差减少来代替,而不是 SD 本身。这个不错的页面很好地解释了它背后的想法和算法。

最后,我想分享两个资源,以减少混淆并提供有关该主题的更多详细信息。首先,此讨论有助于了解为什么您的陈述“标准差越高,熵越小”和“SD 越小,熵越多”[保留原始样式] 是不正确的。其次,尽管本文侧重于财务,但提出了倾向于使用熵而不是标准差的潜在原因。让我将它们总结在以下列表中:

  • 熵是一种更通用的度量,支持更广泛的数据类型;
  • 熵比 SD 包含更多信息(因此,使模型更真实);
  • 熵是无分布的,不依赖于特定的分布(更少的错误);
  • 熵满足一阶条件(用于优化和计量经济模型);
  • 熵也可以作为分散的量度(因此,发挥 SD 的作用)。

还应注意不喜欢使用熵而不是 SD的原因,包括前者的复杂性和潜在的统计偏差,这与考虑的模型自由度有关。