连续分布的熵解释?

机器算法验证 信息论
2022-03-20 16:55:58

“熵”粗略地捕捉了概率分布中“信息”的程度。

对于离散分布,有一个更准确的解释:离散随机变量的熵是传输随机变量结果所需的预期位数的下限。

但是对于一个连续的随机变量,有无数个结果,所以我们甚至不能开始转移在有限的比特串中发生了哪个确切的结果。

什么是连续变量熵的等效解释?

2个回答

由于离散点的密度有限,解释

S=xp(x)lnp(x)
不能概括为
S=dx(p(x)lnp(x))

因为直接概括导致

S=dxp(x)ln(p(x)dx)=dxp(x)ln(p(x))dxp(x)ln(dx)
清楚地,lndx爆炸。

直观地说,由于p(x)dx=0,因此使用较少位来编码更可能发生的事情的推理不成立所以,我们需要找到另一种解释方式S=dxp(x)ln(p(x)dx), 选择是KL分歧。

假设我们有一个均匀分布q(x)在同一个状态空间,那么我们有

KL(p(x)q(x))=dxp(x)ln(p(x)dxq(x)dx)
由于只是一个常数,所以我们有效地保持了的形式,同时构造了一个明确的量对于连续分布q(x)S=dx(p(x)ln(p(x)dx))p(x)

所以从散度来看,连续分布的熵可以解释为:KLp(x)

如果我们使用均匀分布来编码,那么平均有多少位是不必要的。p(x)

您通过概率密度离散化问题。连续随机变量的密度为,它在局部近似于可能的,它现在是离散情况的模拟. 根据微积分理论,您的总和等效地成为您状态空间上的积分。f(x)P(X[x,x+δx])f(x)δx