在统计和相关领域的背景下比较标准差和熵时,我认为重要的是要认识到熵概念的两个概念之间的区别:熵作为可变性、波动性、混沌的量度(这个含义通常隐含在物理学中和类似的域)和熵作为消息中平均信息的度量(这个含义通常隐含在域中,基于香农的信息理论)。然而,尽管概念之间存在明显的表面差异,但上述两个维度反映了两者之间的密切相似之处基于物理的熵和基于信息论的熵概念。关于这个主题的讨论超出了我的回答范围,但这篇文章恕我直言是一个好的开始。
您感到困惑的熵公式来自信息理论(请参阅本节),并且是通过信息增益概念使用熵的基础(请注意公式中的相似性)。如果我理解正确,所有这些类型的熵都是动态系统中基于数学的广义熵概念的特定(上下文)案例。
关于您关于可能使用标准偏差 (SD)作为决策树的替代度量的特定问题,我不得不说以下几点:
- 是的,可以使用 SD 代替熵(信息增益,更准确);
- 似乎您关于希望将更高的 SD作为属性拆分标准的说法是错误的 - 您需要更高的信息增益,可以用标准差减少来代替,而不是 SD 本身。这个不错的页面很好地解释了它背后的想法和算法。
最后,我想分享两个资源,以减少混淆并提供有关该主题的更多详细信息。首先,此讨论有助于了解为什么您的陈述“标准差越高,熵越小”和“SD 越小,熵越多”[保留原始样式] 是不正确的。其次,尽管本文侧重于财务,但提出了倾向于使用熵而不是标准差的潜在原因。让我将它们总结在以下列表中:
- 熵是一种更通用的度量,支持更广泛的数据类型;
- 熵比 SD 包含更多信息(因此,使模型更真实);
- 熵是无分布的,不依赖于特定的分布(更少的错误);
- 熵满足一阶条件(用于优化和计量经济模型);
- 熵也可以作为分散的量度(因此,发挥 SD 的作用)。
还应注意不喜欢使用熵而不是 SD的原因,包括前者的复杂性和潜在的统计偏差,这与考虑的模型自由度有关。