微分熵何时为负?

机器算法验证 信息论
2022-04-08 21:19:36

连续信号的熵定义为:

h[f]=E[ln(f(x))]=f(x)ln(f(x))dx

根据维基百科,它可能是负面的。那什么时候会发生?据我了解,总是所以只能是负数。我错过了什么?f(x)[0,1]f(x)ln(f(x))

2个回答

微分熵应被视为相对(私有)信息的度量 - 不是绝对的。特别要注意,微分熵会响应尺度的变化(即,您有一个单位量的对数,这意味着它将取决于您测量轴的单位),这不是一个有意义的概念对于离散信息源。在这种情况下无法指定绝对信息应该被视为基于直观的想法,即在无限连续体中指定特定值所需的信息量本身是无限的,因为您必须从实现的无限可能性中区分一个这样的规范。x

为了更准确地理解它,请考虑微分熵为零的均匀分布。一个简单的例子就是一个单元宽的例子:

P(x)={1, if x[0,1]0, otherwise

如果你做这个的微分熵,你会发现它是零,因为并且在适当的限制 “等于” 0。这对应于你(或指定贝叶斯概率的智能体)知道对象的位置(或其他)恰好在一个单位内。如果你使分布更宽,比如两个单位,那么你的信息更少,那么微分熵将是hln(1)=00ln(0)P(x)ln(2)或约 0.693。这与无限离散的 bin 集的离散熵相同,每个 bin 代表“一个单位”,或者如果您愿意,也可以是标尺上标记之间的 bin,并且您仅将使用标尺进行的测量报告为它最好的刻度的整数,现在均匀地分布在两个这样的 bin 中,这意味着我们现在关于粒子位置的信息减少了 0.697 nats ,直到一个单位的分辨率。

负微分熵则意味着我们走另一条路——因为我们使用离散箱,我们可以比一个箱“更精确”地知道它,即精度小于一个单位,因此( information) 现在必须更少,因为我们更了解情况,因此现在小于零但是如果我切换到更精细的尺度,即更小的单位,那么熵将再次超过零,因为现在我们没有足够的知识来知道它到那个精细的尺度。

你不能有一个绝对的度量,因为在一个连续统一体上,实际上你在任意小的区间内都有无数个“箱”,因此即使是一个微小的不确定区间仍然是有效的无限信息。因此,我们必须“从高到无穷大”来测量实际分布中熵的差异,这就是为什么微分熵的“底部”位于,这就像连续概率测量中的概率为零,并且这并不一定代表不可能,而是关于我们正在考虑的集合的无限性可以忽略不计。

或者直观地说,假设您将连续统一体视为一组箱 - 每个点一个箱 - 就像您如何处理普通的离散随机变量一样。然后具有的概率分布,即某个中心实数处的 delta 函数,即占用一个 bin,因此熵为 0,但如果您现在有 2 个概率为 1 的 bin /2,即意思是“我们知道粒子在完全或完全但不是哪个”,然后通过通常的离散熵公式,你有熵 nat(或香农使用P(x)=δ(xa)aP(x)=12δ(xa1)+12δ(xa2)a1a20.6931lg而不是)。但是,如果您以这种方式继续,早在您达到真正的连续分布之前,您将很快使用离散熵“顶”(在对无数个 bin 求和之后),在正无穷大处饱和。这就是我的意思是说,然后要进入连续分布,然后你必须“飙升” - 实际上是不可数无穷大的积分堵塞并将你的参考点上升到远高于真实基线,这样你就可以区分“在离散熵的无限边界之上”的不同无限量。然后,通过对称性,这个上升使基线无限远低于你,或者在ln,而且由于实数的阿基米德性质,使您无法再区分这些有限箱情况(如果您自己检查,所有这些情况都具有微分熵)。

您只是混淆了密度函数可以大于 1。它只是积分为 1。它是f(x)F(X)f(x)F(X)[0,1]

最好的