机器算法验证 - 贝叶斯推理：迭代参数更新如何工作？ - 吾爱随笔录

贝叶斯推理：迭代参数更新如何工作？

机器算法验证贝叶斯估计优化推理后部

2022-03-24 05:54:56

我已经为此苦苦挣扎了一段时间。一个典型的优化问题可以看作是优化一些成本函数，它是数据项和鼓励某些解决方案的惩罚项的组合。通常两者之间有一个加权项。

在贝叶斯设置中，这可以用通常的先验和似然函数来解释。在我试图理解的当前问题中，我将先验建模为具有零均值且精度矩阵等于的多元正态，其中可以认为是这种正则化加权，而是一些适当的精度矩阵以某种方式对合理解决方案进行编码的结构。在我的特定示例中，精度矩阵对估计参数进行了一些平滑约束，即先验鼓励平滑解决方案。在这种情况下，表示这个平滑惩罚项的强度。 _ $\lambda \Lambda$ $\lambda$ $\Lambda$ $\lambda$ $\lambda$ 零表示我们只优化成本函数（即似然函数）的 ML 估计。这是因为随着的减小，精度降低，因此先验中每个参数的方差增加。的低值将向非正则化解决方案移动。 $\lambda$ $\lambda$

现在，我看到的一个典型的事情是存在某种迭代方案，我们首先从的近似值开始，并使用一些近似方案（如变分贝叶斯或期望传播）来计算另一个感兴趣的参数的分布的估计（假设上的先验是共轭形式的，通常用 Gamma 分布完成，它也保持正数）。 $\lambda$ $\lambda$ $\lambda$

现在，我的问题是，如果我从一个非常低的值作为我的近似值开始，那么前一项几乎不会有任何影响。这不会将估计分布推向不太合理的解决方案，即基本上给非正则化解决方案提供高概率？我很难理解这个更新方案如何实际找到的好值，即找到相对于观察到的数据而言最佳所以，基本上我难以理解的是，是什么阻止了将的这个值推低到零或接近零的推理，以更喜欢非正则化的最大似然估计？我真的不明白这个值如何 $\lambda$ $\lambda$ $\lambda$ $\lambda$ $\lambda$ 是由数据或证据项驱动的。

2个回答

寻找超参数的问题称为证据逼近。Bishop 的书（第 166 页）或本文中对它进行了很好的解释，非常详细。

这个想法是您的问题具有规范形式（新样本的预测分布），其中是你的训练数据，是超参数，是你的权重。

p (t | t) = \int p (t | w, α) p (w | t, α, β) p (α, β | t) d w d α d β

$p(t|\mathbf{t}) = \int p(t|\mathbf{w},\alpha) p(\mathbf{w}|\mathbf{t},\alpha,\beta)p(\alpha,\beta|\mathbf{t}) d\mathbf{w} d\alpha d\beta$

t

$\mathbf{t}$

α, β

$\alpha,\beta$

w

$\mathbf{w}$

首先，计算这个积分很昂贵，甚至可能难以处理，并且还有一个额外的困难：。这个术语告诉我们，我们需要对插值器的集合进行积分。在实践中意味着您将训练您的集成，即中的每一个，并使用贝叶斯定理你可以应用贝叶斯计算每个术语。最后总结所有这些。 $p(\alpha,\beta|\mathbf{t})$ $p(\mathbf{t}|\alpha,\beta)$

p (α, β | t) \propto p (t | α, β) p (α, β)

$p(\alpha,\beta|\mathbf{t}) \propto p(\mathbf{t}|\alpha,\beta) p(\alpha,\beta)$

证据框架假设（在引用的论文中给出了该假设的有效性条件）在某些值。在此假设下，您可以用峰值处的点估计代替积分，即 $p(\alpha,\beta|\mathbf{t})$ $\hat{\alpha},\hat{\beta}$

p (t | t) \approx \int p (t | w, α) p (w | t, \hat{α}, \hat{β})

$p(t|\mathbf{t}) \approx \int p(t|\mathbf{w},\alpha) p(\mathbf{w}|\mathbf{t},\hat{\alpha},\hat{\beta})$

如果先验相对平坦，那么寻找和的问题最终会归结为最大化似然。在您的情况下，积分项具有封闭形式的解（也是高斯解）。 $\hat{\alpha}$ $\hat{\beta}$ $p(\mathbf{t}|\alpha,\beta)$

PS 在统计学中，这种方法被称为经验贝叶斯。如果你用谷歌搜索它，你会找到一些参考资料。我觉得这个非常好，因为它详细地解决了更简单的问题，并仔细介绍了所有必要的术语。

好的，我终于弄清楚了直观的原因还是这个。感谢@juampa 的提示。Bishop 书中让我明白这一点的是图 3.13。问题是我们需要考虑与模型复杂性相关的模型证据会发生什么。

因此，在我的示例中，当正则化项设置为低时，这意味着预测后验分布将真正展开，因此它将为任何特定观察分配低概率（因此先验将具有高方差，因此概率将被分散）。类似地，当很高时，我们的先验方差会很低，模型不能很好地拟合数据。 $\lambda$ $\lambda$

因此，最佳拟合通常是某个中间值，这正是所趋向的（除非有充分的理由让取极值）。 $\lambda$ $\lambda$

其它你可能感兴趣的问题

上一篇使用 Ward 聚类时，对差异进行平方是否有优势？下一篇“PCA（主成分分析）对数据进行分析”是什么意思？