最大熵分布的统计解释

机器算法验证 分布 直觉 信息论 最大熵
2022-02-01 03:53:08

我已经使用最大熵原理来证明在各种设置中使用几种分布是合理的;但是,与信息论相反,我还没有能够对最大熵进行统计解释。换句话说,最大化熵对分布的统计特性意味着什么?

有没有人遇到过或者可能发现自己对最大值的统计解释。熵分布不吸引信息,而只吸引概率概念?

作为这种解释的一个例子(不一定正确):“对于 RV 域上的任意长度 L 的间隔(为简单起见假设它的一维连续),可以包含在该间隔中的最大概率被最小化通过最大熵分布。”

因此,您会看到没有谈论“信息量”或其他更具哲学意义的想法,只是概率含义。

4个回答

这不是我真正的领域,所以有些沉思:

我将从惊喜的概念开始。吃惊是什么意思?通常,这意味着发生了一些不希望发生的事情。因此,令人惊讶的是,它是一个概率概念,可以这样解释(IJ Good 曾写过)。另请参阅WikipediaBayesian Surprise

以是/否的情况为例,有些事情可能发生也可能不发生。它以概率发生。比如说,如果 p=0.9 并且它发生了,你并不感到惊讶。如果并且它发生了,你会有些惊讶。如果并且它发生了,你真的会感到惊讶。因此,“观察结果中的惊喜值”的自然度量是发生事件概率的一些(反)单调函数。对发生的事情的概率取对数似乎很自然(并且效果很好......),然后我们加上一个减号以获得一个正数。 此外,通过取对数,我们专注于意外的顺序,并且在实践中,概率通常只知道顺序,或多或少pp=0.05p=0.0000001

因此,我们定义 其中是观察到的结果,是它的概率。

Surprise(A)=logp(A)
Ap(A)

现在我们可以问一下预期的惊喜是什么。为概率为的伯努利随机变量。它有两个可能的结果,0 和 1。各自的惊喜值是 所以观察时的惊喜本身就是一个具有期望 的随机变量 ,即—— - 惊喜!---的熵!所以熵是意料之中的惊喜Xp

Surprise(0)=log(1p)Surprise(1)=logp
X
plogp+(1p)log(1p)
X

现在,这个问题是关于最大熵的。为什么有人要使用最大熵分布?嗯,一定是因为他们想最大程度地感到惊讶!为什么会有人想要那个?

一种看待它的方法如下:你想了解一些东西,为了这个目标,你设置了一些学习经验(或实验......)。如果您已经对这个话题了如指掌,那么您总是能够完美地预测,所以永远不会感到惊讶。然后你永远不会获得新的经验,所以不要学习任何新东西(但你已经什么都知道了——没有什么可学的,所以没关系)。在更典型的情况下,你感到困惑,无法完美预测,有一个学习的机会!这导致了我们可以通过预期的惊喜来衡量“可能的学习量”的想法,即熵。因此,最大化熵就是最大化学习机会. 这听起来像是一个有用的概念,在设计实验之类的事情上可能很有用。

一个富有诗意的例子是众所周知的

Wenn einer eine reise macht, dann kann er was erzählen ...

一个实际的例子:你想设计一个在线测试系统(在线意味着不是每个人都得到相同的问题,问题是根据之前的答案动态选择的,因此以某种方式针对每个人进行了优化)。

如果你提出太难的问题,以至于他们永远不会被掌握,那么你什么也学不到。这表明您必须降低难度级别。什么是最优难度级别,即最大化学习率的难度级别?设正确答案的概率为我们想要最大化伯努利熵但那是因此,您的目标是陈述获得正确答案(从该人那里)的概率为 0.5 的问题。ppp=0.5

然后是连续随机变量的情况。怎么能令我们感到惊讶呢?任何特定结果的概率为零,定义是无用的。但是如果观察到像这样的东西的概率很小,也就是说,如果密度函数值很小(假设是连续的),我们会感到惊讶。这导致定义 有了这个定义,观察的预期惊喜是 XX{X=x}logpxf(x)f

Surprise(x)=logf(x)
X
E{logf(X)}=f(x)logf(x)dx
也就是说,观察的微分熵它也可以看作是预期的负对数似然。XX

但这与第一个事件案例并不完全相同。太看到了,举个例子。让随机变量代表投掷石头的长度(比如在体育比赛中)。为了测量那个长度,我们需要选择一个长度单位,因为长度没有内在的尺度,就像概率一样。我们可以以毫米或公里为单位进行测量,或者更常见的是以米为单位。但是我们对惊喜的定义,即预期的惊喜,取决于所选择的单位,因此不存在不变性。因此,微分熵的值不能像香农熵那样直接比较。如果有人记得这个问题,它可能仍然有用。X

也许不完全是您所追求的,但在 Rissanen, J. Stochastic Complexity in Statistical Inquiry , World Scientific, 1989, p. 41 最大熵、正态分布和中心极限定理之间存在一个有趣的联系。在所有均值为零且标准差的密度中,正态密度具有最大熵。σ

“因此,在这种解释中,基本中心极限定理表达了这样一个事实,即具有均值为零和共同方差的独立随机变量之和的每个符号熵趋于最大值。这似乎非常合理;事实上,它是热力学第二定律,爱丁顿认为它是‘自然法则中的最高地位’。”

我还没有探索这其中的含义,我也不确定我是否完全理解它们。

[编辑:修正错字]

虽然不是信息论和最大熵方面的专家,但我对它感兴趣已经有一段时间了。

熵是根据一组标准导出的概率分布的不确定性的度量。它和相关测量表征概率分布。而且,它是满足这些标准的独特衡量标准。这类似于概率本身的情况,正如 Jaynes (2003) 中精美解释的那样,它是满足逻辑陈述不确定性的任何度量的一些非常理想的标准的独特度量。

与熵不同的概率分布不确定性的任何其他度量都必须违反用于定义熵的一个或多个标准(否则它必然是熵)。所以,如果你有一些关于概率的一般性陈述,以某种方式给出与最大熵相同的结果……那么它就是最大熵!

到目前为止,我能找到的最接近关于最大熵分布的概率陈述是Jaynes 的浓度定理你可以在 Kapur 和 Kesavan (1992) 中找到清楚的解释。这是一个松散的重述:

我们需要关于结果也就是说,我们需要 ,我们的概率分布必须满足此外,由于概率必须加到 1,我们总共有约束。pnpii=1,...,nmm+1

为满足约束的某个分布的熵,令为最大熵分布的熵。Sm+1Smax

随着观察集的大小增加,我们有 N

2N(SmaxS)χnm12.

这样,95% 的熵区间定义为 因此,满足与最大熵分布相同约束的任何其他分布都有 95% 的机会具有大于

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003)概率论:科学的逻辑。 剑桥大学出版社。

JN Kapur 和 .K. Kesavan (1992)应用熵优化原理。学术出版社,股份有限公司。

您可能想看看 Wallis 推导。

https://en.wikipedia.org/wiki/Principle_of_maximum_entropy#The_Wallis_derivation

它的优点是本质上是严格的组合,没有将信息熵作为衡量“不确定性”、“信息量不足”或任何其他不精确定义的概念的量度。

维基百科页面很棒,但让我添加一个简单的例子来说明这个想法。

假设你有一个骰子。如果骰子是公平的,显示的数字的平均值将为 3.5。现在,假设有一个骰子,其显示的平均值略高,比如说 4。

它怎么能做到这一点?好吧,它可以以无数种方式做到这一点!例如,它可以每次显示 4 个。或者它可以以相等的概率显示 3、4、5。

假设你想编写一个计算机程序来模拟一个平均为 4 的骰子。你会怎么做?

这是一个有趣的解决方案。你从一个公平的骰子开始。你滚动它很多次(比如 100 次),你会得到一堆数字。如果这些数字的平均值为 4,则您接受该样本。否则你拒绝它,然后再试一次。

经过多次尝试,你终于得到了一个平均为 4 的样本。现在你的计算机程序将简单地返回一个从这个样本中随机选择的数字。

它会显示哪些数字?好吧,例如,您希望 1 出现一点点,但可能不会出现 1/6,因为 1 会降低样本的平均值,并且会增加样本被拒绝的概率。

在一个非常大的样本的限制下,数字将按照这样的分布:

https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution#Discrete_distributions_with_specified_mean

这是具有指定均值的分布中熵最大的分布。 啊哈!