机器算法验证 - 归根结底，您如何处理贝叶斯估计？ - 吾爱随笔录

归根结底，您如何处理贝叶斯估计？

机器算法验证贝叶斯推理

2022-01-31 07:11:55

我经常听说在某些情况下，使用基于贝叶斯的方法可能更有益，因为它们提供“可能答案的分布”（即后验分布）而不是单个答案（如常客案例中所做的那样）。然而，似乎在一天结束时，分析师仍然需要将这种“可能答案的分布”转换为一个单一的答案。

例如：如果使用贝叶斯模型来估计“mu”的后验分布，分析师仍然需要采用 MAP 或该分布的期望来返回最终答案。

这是贝叶斯模型的主要好处吗？如果正确指定了先验，那么与（感兴趣的参数的）后验分布的期望相关的可信区间更可靠吗？

4个回答

首先，Frequentist 方法还提供了可能答案的分布。只是出于哲学观点，我们不称它们为分布。频率论者认为分布的参数是一个固定的量。不允许随意；因此，您不能以有意义的方式谈论参数的分布。在频率论方法中，我们估计置信区间，如果我们放弃哲学细节，可以将其视为分布。但是在贝叶斯方法中，固定参数可以是随机的；因此，我们讨论参数的（先验和后验）分布。

其次，并不总是最后只使用一个值。许多应用程序要求我们在后续分析中使用整个后验分布。事实上，要得出合适的点估计，需要完全分布。一个众所周知的例子是风险最小化。另一个例子是自然科学中存在重大不确定性的模型识别。

第三，贝叶斯推理比频率分析有很多好处（不仅仅是你提到的那个）：

易于解释：很难理解置信区间是什么以及为什么它不是概率分布。正如我在上面简要解释的那样，原因只是一个哲学问题。贝叶斯推理中的概率分布更容易理解，因为这是我们通常倾向于在不确定情况下思考的方式。
易于实施：获得贝叶斯概率分布比获得频率派置信区间更容易。频率分析要求我们确定一个抽样分布，这对于许多现实世界的应用来说是非常困难的。
模型的假设在贝叶斯推理中是明确的：例如，许多频率分析假设用于计算置信区间的渐近正态性。但是贝叶斯推理不需要这样的假设。此外，贝叶斯推理中的假设更加明确。
先验信息：最重要的是，贝叶斯推理允许我们以相对简单的方式将先验知识纳入分析。在频率论方法中，正则化用于合并在许多问题中很难做到的先验信息。这并不是说在贝叶斯分析中结合先验信息很容易。但它比频率分析更容易。

编辑：贝叶斯方法易于解释的一个特别好的例子是它们在概率机器学习（ML）中的使用。在贝叶斯思想的背景下，ML 文献中开发了几种方法。例如，相关向量机 (RVM)、高斯过程 (GP)。

正如理查德哈迪指出的那样，这个答案给出了有人想要使用贝叶斯分析的原因。也有充分的理由使用频率分析。一般来说，频率论方法在计算上更有效。我建议阅读 James Berger 的“统计决策理论和贝叶斯分析”的前 3-4 章，它对这个问题给出了平衡的看法，但重点是贝叶斯实践。

为了详细说明使用整个分布而不是点估计来做出风险最小化的决策，下面是一个简单的示例。假设您必须在流程的不同参数之间进行选择才能做出决策，而选择错误参数的成本为 $L(\hat{\theta},\theta)$ 在哪里 $\hat{\theta}$ 是参数估计和 $\theta$ 假定为真参数。现在给定后验分布 $p(\hat{\theta}|D)$ （在哪里 $D$ 表示观察）我们可以最小化预期损失，即 $\int L(\hat{\theta},\theta)p(\hat{\theta}|D)d\hat{\theta}$ . 对于每个 $\theta$ 和 $\theta$ 具有最小预期损失的值可用于决策。这将产生一个点估计；但是点估计的值取决于损失函数。

根据 Alexis 的评论，这就是为什么常客置信区间更难解释的原因。置信区间是（正如亚历克西斯指出的那样）：给定 I 类错误率的参数的合理估计范围. 人们自然会问这个可能的范围从何而来。常客的回答是它来自抽样分布。但问题是我们只观察一个样本？常客的回答是，我们根据似然函数推断可以观察到哪些其他样本。但是，如果我们基于似然函数推断其他样本，则这些样本应该具有它们的概率分布，因此，置信区间应该被解释为概率分布。但出于上述哲学原因，不允许将概率分布最后扩展到置信区间。将此与贝叶斯声明进行比较：95% 的可信区域意味着真实参数以 95% 的概率位于该区域中。

关于贝叶斯和常客理论之间哲学差异的旁注（基于的评论）：在常客理论中，事件的概率是该事件在相关实验的大量重复试验中的相对频率。因此，分布的参数是固定的，因为它们在实验的所有重复中都保持不变。在贝叶斯理论中，概率是在所讨论的实验的单次试验中会发生事件的信念程度。频率定义概率的问题在于它不能用于定义许多现实世界应用程序中的概率。例如，尝试定义我在安卓智能手机上输入此答案的概率。频率论者会说概率是 $0$ 或者 $1$ . 虽然贝叶斯定义允许您在 $0$ 和 $1$ .

我不能给出贝叶斯主义在法律上的好处，但我可以提供一些例子来说明我如何发现贝叶斯主义与频率主义相比是有益的。

贝叶斯分析的结果是后验分布而不是点估计允许分析师执行一些非常简单的计算以执行决策分析。正如我在这里解释的那样，后验可用于估计任何决策的预期损失（假设指定了成本函数），只需对通过 MCMC 技术获得的样本取平均值即可。这假设一个人有一个现成的好模型（可能有好处，也可能有坏处，具体取决于您的立场），但我不能强调计算的简单程度。

从您在帖子中提出的一些观点来看，您似乎意识到人们仍然想要一个数字（例如，后验的期望或参数的 MAP）。样本均值意味着一个特定的成本函数（例如，样本均值使平方误差之和最小化）。但是，如果您想要其他成本结构，那么使用贝叶斯主义，您可以自由地使用满足您需求的估算器，就像我在上面的链接中所做的那样。

你的问题没有答案。

确实，在某些情况下，贝叶斯解决方案本质上优于频率解决方案。反之亦然。

贝叶斯模型的主要好处是它更新和改进了你对世界的信念。除此之外，这两个系统没有可比性。他们解决不同的问题。

后验分布，如果你真的在使用你真正的先验，应该成为你的新先验。关于参数和未来数据，它成为您对世界的默认理解。

如果您在第三方分析中使用它，那么它应该由他们之前的发行版而不是您的发行版指定。你没有更新你的信念。

构造估计器的所有三种主要方法、最大似然法、基于频率的估计器（例如最小方差无偏估计器）和贝叶斯估计器都是最优估计器。它们在不同的标准下是最优的。

如果你一天早上醒来，并假设一个或多个类别的估计没有被问题的性质排除，并且需要一个点估计，那么当你说一个点是最优的时，解决方案就是回答你的意思。

你应该回答各种各样的问题。谁需要重点？为什么他们需要重点？如果您选择了错误的点，该第三方会发生什么？它真的需要一个点吗？间隔或分布能否做得同样好或更好？

我认为您可能会遗漏另一个区别。频率派区间或点在样本空间中起作用。过程中隐含或显式的分布，例如学生 t 统计量的抽样分布，不是信念的分布。对于统计数据，它们是您在样本空间上收集样本时期望看到的长期分布。它们代表了可能发生但可能永远未实现的结果。

贝叶斯先验分布和后验分布是关于参数的信念分布。它们不是可能发生的分布。它们只发生在头脑中。改变你的先验，你就会改变你的后验。即使是贝叶斯预测分布，它也从本质上最小化了预测和自然之间的 KL 差异，也永远不会发生。它只是可能发生在后验或先验上的可能分布的加权和。

后验是贝叶斯结论。获得一个点需要添加额外的标准，然后将这些标准强加于后验分布、先验分布或预测分布。

使用贝叶斯解决方案有很多很好的理由。在某些情况下，这是唯一允许的解决方案。非贝叶斯工具也可以这样说。

如果您查看模型的机会成本，您应该使用哪种估计流派？

假设您的先验分布是硬币可能有偏差，因此它具有成功概率 $\theta$ 靠近 $1/3.$ 具体来说，您认为 $\theta\sim\mathsf{Beta}(2,4),$ 以便 $E(\theta)=1/3,$ $P(\theta < 1/2) = 0.8125,$ $P(0.0527 <\theta < 0.716) = 0.96,$ 和 $\theta$ 有密度函数 $f(\theta) = K\theta^{2-1}(1-\theta)^{4-1},$ 在哪里 $K$ 是规范常数。[R中的计算]

pbeta(.5, 2,4)
[1] 0.8125
qbeta(c(.025,.975),2,4)
[1] 0.05274495 0.71641794

然后你可以抛硬币 $n = 30$ 次，获得 $x = 9$ 头。因此，您的似然函数是 $g(x|\theta) \propto \theta^9(1-\theta)^{21},$ 符号在哪里 $\propto$ 表示规范常数已被省略。

最后，根据贝叶斯定理，后验分布为

g (θ | x) \propto f (θ) \times g (x | θ) \propto θ^{2 - 1} (1 - θ)^{4 - 1} \times θ^{9} (1 - θ)^{21} \propto θ^{11 - 1} (1 - θ)^{25 - 1} .

$g(\theta|x) \propto f(\theta)\times g(x|\theta)\\ \propto \theta^{2-1}(1-\theta)^{4-1} \times \theta^9(1-\theta)^{21}\\ \propto \theta^{11-1}(1-\theta)^{25-1}.$

我们将最后一行识别为内核（没有规范常数的密度） $\mathsf{Beta}(11,25).$

因此后验均值 $\theta$ 是 $E(\theta|x)=11/36= 0.3056,$ 比之前的略小 $E(\theta) = 0.333$ 因为你有 30 次投掷的信息。

此外，95% 的后置可信区间 $\theta$ 是 $(0.169, 0.463).$

qbeta(c(.025,.975),11,25)
[1] 0.1685172 0.4630446

后验分布包含来自您最初预感的信息，即硬币可能偏向尾巴，以及您用硬币进行 30 次抛掷实验的结果。

这个贝叶斯区间估计的解释不同于频率论置信区间的“长期”解释。因为先验和可能性都描述了手头的特定硬币，所以我们可以说区间 $(0.169, 0.463)$ 也适用于手头的硬币。特别是我们很确定硬币是不公平的。

其它你可能感兴趣的问题

上一篇“把手”图的替代图形下一篇如何解释 ROC 曲线？