机器算法验证 - 贝叶斯后验是否需要正确分布？ - 吾爱随笔录

贝叶斯后验是否需要正确分布？

机器算法验证分布贝叶斯后部

2022-01-24 13:32:09

我知道先验不一定是正确的，并且似然函数也不会积分为 1。但是后验是否需要适当的分布？如果是/不是，会有什么影响？

4个回答

（阅读之前的答案有点令人惊讶，这些答案侧重于当先验正确时后验的潜在不当之处，因为据我所知，问题是后验是否必须正确（即，可积为一）是适当的（即，贝叶斯推理可接受的）后验。）

在贝叶斯统计中，后验分布必须是一种概率分布，从中可以推导出像后验均值这样的矩和像可信覆盖率这样的概率陈述区域，。如果后验不能归一化为概率密度，贝叶斯推理根本无法进行。在这种情况下，后验根本不存在。 $\mathbb{E}^\pi[h(\theta)|x]$ $\mathbb{P}(\pi(\theta|x)>\kappa|x)$

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

π (θ | x)

$\pi(\theta|x)$

实际上，(1) 必须对样本空间中的所有成立，而不仅仅是对观察到成立，否则，选择先验将取决于数据。这意味着不能使用 Haldane 的先验，等关于二项式或负二项式变量的概率的先验，因为后验不是为定义。 $x$ $x$ $\pi(p)\propto \{1/p(1-p)\}$ $p$ $X$ $x=0$

当可以考虑“不适当的后验”时，我知道一个例外：在David van Dyk 和 Xiao-Li Meng的“数据增强艺术”中发现。不恰当的测量是在一个所谓的工作参数 上，这样观察是由一个增广分布的边缘产生的和 van Dyk 和 Meng在这个工作参数为了加快 MCMC 对的模拟（它仍然被明确定义为概率密度）。 $\alpha$

f (x | θ) = \int_{T (x^{aug}) = x} f (x^{aug} | θ, α) d x^{aug}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$

从另一个角度来看，与eretmochelys的答案有些相关，即贝叶斯决策理论的观点，如果 (1) 发生的设置导致最佳决策，它仍然是可以接受的。即，如果是评估使用决策的影响的损失函数，则在先验下的贝叶斯最优决策由重要的是这个积分并不无处不在（在中）无限。的推导是次要的 $L(\delta,\theta)\ge 0$ $\delta$ $\pi$

δ^{⋆} (x) = \arg min_{δ} \int L (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$ ，即使只有在 (1) 成立时才能保证诸如可接纳性之类的性质。

即使先验是正确的，后验分布也不一定是正确的。例如，假设有一个形状为 0.25 的 Gamma 先验（这是正确的），并且我们将我们的基准建模为从均值为零和方差的高斯分布中绘制。假设为零。那么似然与成比例，这使得的后验分布不正确，因为它与成比例。这个问题的出现是因为连续变量的古怪性质。 $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ $v$ $v^{-1.25} e^{-v}$

定义集合我们有的 Lebesgue 测度为正，则最后一个积分将等于。但这是不可能的，因为这个积分给了你一个概率（一个介于和之间的实数）。因此，的 Lebesgue 测度等于，当然，它也遵循

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$ 。

换句话说：那些使后验不正确的样本值的先验预测概率等于零。

故事的寓意：当心空集，它们可能会咬人，无论它多么不可能。

PS 正如罗伯特教授在评论中指出的那样，如果先验不正确，这种推理就会失败。

任何“分布”都必须求和（或积分）为 1。我可以举几个例子，其中可能会使用非标准化分布，但我不习惯将任何边缘化为除 1 之外的任何东西称为“分布”。

鉴于您提到了贝叶斯后验，我敢打赌您的问题可能来自一个分类问题，即在给定某些特征向量 $x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

最后一个相等来自不依赖于的事实。然后我们可以只根据与我们的贝叶斯后验成正比的值来选择我们的，但不要因为概率而混淆它！ $P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

其它你可能感兴趣的问题

上一篇分类树的替代品，具有更好的预测（例如：CV）性能？下一篇为什么拥有机器学习的原理和数学理论如此重要？