直观地知道pdf“达到一个常数”是什么意思?

机器算法验证 贝叶斯 马尔可夫链蒙特卡罗
2022-04-10 23:57:09

我已经多次看到这一点,最近一次是在激励 MCMC 方法和描述 Metropolis-Hastings 算法时。文本(模拟和蒙特卡洛方法,第二版。由 RY Rubinstein 和 DP Kroese 撰写)说:

MCMC 的另一个优点是它只需要将目标 pdf 指定为(标准化)常数。

有人可以就知道一个常数的概率密度函数以及为什么它在这种情况下是一个“优势”给出一些直觉吗?

2个回答

正如评论中所解释的,要知道一个 pdf 到一个归一化常数意味着对于具有 pdf,我们知道 其中是未知的。的标准正态分布 。Xf(x)

f(x)g(x)f(x)=cg(x),
c=g(x)dx
f(x)=12πex22.

现在假设我们处于这样一种情况,我们只能确定 因此和归一化常数是未知的。如果我们将其可视化并绘制,我们会得到下图

f(x)ex22,
g(x)=ex22c=12πf(x)g(x)

在此处输入图像描述

虚线是我们未知的真实 pdf,实线是已知的密度的形状保持不变,但函数在垂直方向上被拉伸或压缩,这取决于未知的归一化常数。g(x)

在贝叶斯模型中,我们通常只知道一个归一化常数的后验,但我们想了解后验分布的不同特征:如分布的均值、众数或分位数。好吧,显然的模式对应于的模式,因此不需要归一化常数。但是,要计算分布的平均值g(x)f(x)

E(X)=xf(x)dx=cxg(x)=cxg(x)dx.

即使您可以解决也是未知的,并且您无法找到的平均值。这是可以使用 MCMC 的地方,因为它能够从的分布中抽取样本,而不需要归一化常数xg(x)dxcXXc

除了Greenparker的其他评论和不错的回答之外,还需要对常数进行归一化,以便概率密度函数整合为一并且是适当的分布。

我们并不总是需要对概率密度进行归一化,例如,当我们使用最大似然估计贝叶斯 MCMC 估计时,我们只需要知道值之间的相对关系。例如,如果您想通过最大化它的似然性来估计二项式分布那么您唯一需要的是已知到归一化常数的二项式密度,即 . 常数是并且因为它不会改变任何关于寻找似然函数的最大值的东西,所以不需要它。ppk(1p)nk(nk)L(p)

你可以问:那又怎样?如果我们可以使用它,那么为什么不总是使用它呢?问题是,虽然对于常用的分布我们知道归一化常数,但对于其他分布,它们不必很明显。例如,想象一个贝叶斯模型,其中是归一化常数,是参数兴趣。将先验乘以似然很容易,但要获得归一化常数,您需要积分,这f(θ|x)=c1f(x|θ)f(θ)cθc=f(x|θ)f(θ)dθ更复杂(即使对于离散分布,具有可数有限支持,在某些情况下您需要对大量元素求和,这是计算密集型问题)。如果您正在处理复杂的多元分布,那么求解积分本身可能就是一个问题。希望我们有像 MCMC 这样的计算工具来处理形式为的贝叶斯模型,这使我们能够从这种分布中抽取样本并进行不知道常数的估计f(θ|x)f(x|θ)f(θ)

因此,在某些情况下,分布已知为常数,而常数本身可能并不明显。此外,我们可以在不知道常数的情况下对分布进行许多数学运算。