通过蒙特卡洛采样估计信息熵

计算科学 蒙特卡洛 随机抽样
2021-12-19 06:17:45

当从该分布中采样的唯一实用方法是蒙特卡洛方法时,我正在寻找允许估计分布的信息熵的方法。

我的问题与通常用作 Metropolis-Hastings 抽样介绍性示例的标准 Ising 模型没有什么不同。我有一个集合的概率分布A,即我有p(a)对于每个aA. 要素aA像伊辛状态一样具有组合性质,并且数量非常多。这意味着在实践中,从计算机上的此分布中采样时,我永远不会两次获得相同的样本。p(a)不能直接计算(由于不知道归一化因子),但比率p(a1)/p(a2)很容易计算。

我想估计这个分布的信息熵,

S=aAp(a)lnp(a).

或者,我想估计此分布与通过将其限制为子集而获得的熵之间的差异aA1A(当然还有重新规范化)。

2个回答

如果我了解你有什么可用的信息,你想要什么是不可能的:你可用的信息不足以确定熵。仅仅近似熵是不够的。

听起来你有办法从分布中取样p(), 你有办法计算比率p(a1)/p(a2)对于任何一对元素a1,a2您通过采样获得的,但您没有其他信息。如果是这样,你的问题是无法解决的。

特别是,我们可以找到一对具有不同熵的分布,但使用您可用的信息无法区分它们。首先考虑一组(随机)大小的均匀分布2200. 接下来考虑一组(随机)大小的均匀分布2300. 它们具有不同的熵(200 位与 300 位)。但是,鉴于您可以获得的信息,您无法知道您正在使用这两个发行版中的哪一个。特别是,在这两种情况下,比率p(一个1)/p(一个2)将始终恰好为 1,因此这些比率无法帮助您区分两种分布。而且由于生日悖论,您可以随心所欲地采样,但是您永远不会两次获得相同的值(不是在您的一生中,除非是指数级小概率),因此您从采样中获得的值看起来就像随机点并且不包含有用的信息。

因此,要解决您的问题,您需要了解更多信息。例如,如果您对分布的结构有所了解p(),这可能可以解决您的问题。

对于您的问题的第二部分(分布之间熵差异的估计),您可以使用身份

F=-小号,
在哪里是平均能量,是温度(它与θpeθ), 和小号是熵。有关详细信息,请参阅: Jaynes, E. (1957)。信息论和统计力学。物理评论,106(4),620-630。http://doi.org/10.1103/PhysRev.106.620

然后的想法是使用计算统计物理文献中可用的方法之一(请参阅该页面侧栏中的链接)来查找自由能差异 ΔF然后找到Δ小号作为一个函数ΔFΔ使用上面的公式(请记住,您可以考虑对子集的限制一个1一个相当于修改能量函数所以它在补码中变得无限一个1)。

以下是关于计算自由能的算法的另外两个参考资料:

Lelièvre, T.、Rousset, M. 和 Stoltz, G. (2010)。自由能计算。帝国理工学院出版社。http://doi.org/10.1142/9781848162488

Chipot, C. 和 Pohorille, A. (2007)。自由能计算。(C. Chipot 和 A. Pohorille,编)(第 86 卷)。柏林,海德堡:施普林格柏林海德堡。http://doi.org/10.1007/978-3-540-38448-9