熵定义背后的直觉

数据挖掘 信息检索
2022-03-06 09:30:03

信息熵的定义如下:

在此处输入图像描述

这看起来不错,但我不知道为什么要这样定义。有人可以分享他们对此的想法吗?谢谢!

2个回答

请。有关详细信息,请参阅模式识别和机器学习 - 第 1.6 节:信息论。

在此处输入图像描述

左图是信息事件)与概率右图是Expected Information /( Uncertainity ) vs Probability

如果我们仔细看左图;曲线任一极端的变化都会减弱,表示变化较小。在当前语境中翻译,这意味着在极端情况下没有太多信息流入。

停留在左边的曲线上,它位于中间的某个地方(从顶点 45 度),那里有相对更多的“肉”,因为更多的变化发生/转化,更多的信息流入

右侧曲线显示了同样的情况:在两个极端,变化/预期信息在极端处较低,在中心处最高

使用 Excel 的粗略图表:

在此处输入图像描述

您可以将其视为具有 n 个分支的变量 X 的树节点,其中每个分支都具有与其概率相关的深度。节点 X 处的树越平衡,它在 X 处的熵就越高。

对于 n=2,最高熵是如果两个分支中的每一个的概率为 0.5: 在此处输入图像描述