贝叶斯分析如何使用主观选择的概率做出准确的预测?

机器算法验证 可能性 贝叶斯 估计 心理学 启发式
2022-04-20 19:07:05

既然 Kahneman 和 Tversky 发现人类不能准确地假设概率,那么当给定额外数据时,贝叶斯定理如何使用主观选择的概率来准确预测事物(如保险单)?

换句话说,人类在概率上经常是错误的,但贝叶斯定理在使用我们的(先前的)估计时仍然有效。我误解了一些事情吗?

为了澄清保险参考,在大数据集可用之前,美国保险公司依靠贝叶斯方法来计算保险费,从所有意图的最佳猜测开始。这些政策仍然是公平和有利可图的。

(编辑:我没有接受这个问题的答案,因为下面有几个答案一起回答了这个问题。)

4个回答

您说的是贝叶斯分析,而不是贝叶斯定理,但我们知道您的意思。

让我用一个比你想的更奇怪的想法来打击你。只要您在构建模型时使用真实的先验密度,那么所有贝叶斯统计数据都是可接受的,其中可接受性被定义为进行估计的风险最小的方式。这意味着即使在 KT 示例中,您也将获得可接受的统计数据。这确实排除了退化先验的情况。

KT 不直接讨论先验的形成,但您试图理解的想法是预测准确性与有缺陷的先验分布的想法。

现在让我们看看两个不同知识集下的贝叶斯预测。

出于说明的目的,假设美国国会运用其著名的智慧,并且由于美国魔术师协会的大力游说,已决定生产魔法区。他们授权生产公平、双面和有偏见的硬币。双头双尾币很容易评价,但双面币也不是没有翻转。

决定掷硬币八次。从这些翻转中,将赌在接下来的八次翻转中会出现多少正面。硬币要么正面有 2/3 偏差,反面有 2/3 偏差,要么是完全公平的硬币。将被抛掷的硬币是从一个大瓮中随机选择的,该瓮中装有来自美国铸币厂的代表性硬币样本。

有两个赌徒。一个人没有先验知识,但另一个人打电话给美国造币厂,以确定所生产硬币的分布情况。第一个赌徒对每种情况给出 1/3 的概率,但知识渊博的赌徒在公平硬币上设置 50% 的概率,甚至从剩余的概率中设置任何两个的机会。

裁判掷硬币,出现六个正面。这不等于任何可能的参数。最大似然估计是 0.75,最小方差无偏估计也是如此。虽然这不是一个可能的解决方案,但它并不违反理论。

现在两个贝叶斯赌徒都需要做出预测。对于无知的赌徒,接下来八次赌博的质量函数为: 对于博学的赌徒,接下来八次赌博的质量函数是:

Pr(k=K)=(8k)[.042713k238k+.2737128+.683823k138k].
Pr(k=K)=(8k)[.033513k238k+.4298128+.536723k138k].

一轮抛硬币的预测

即使在这种微不足道的情况下,预测也不匹配,但两者都可以接受吗?为什么?

让我们想想这两个演员。他们都包含了他们拥有的所有信息。没有别的了。此外,虽然知识渊博的参与者确实知道全国分布,但他们不知道对当地银行的分布。可能是他们都偏向于尾巴。尽管如此,他们都扣押了所有他们认为是真实的信息。

现在让我们再次想象这个游戏再玩一次。两个赌徒碰巧并排坐着,无知的赌徒会看到知识渊博的赌徒的胜算,反之亦然。无知的赌徒可以通过反转他们的概率来免费恢复知识渊博的赌徒的先验信息。现在两者都可以使用额外的知识。

裁判掷出四头四尾。这些知识被结合起来创建一个新的预测,该预测现在在赌徒之间联合起来。它的图像在下面的图表中。

第二次预测

一个只见过四个正面和四个反面并且没有看过之前的抛掷的赌徒可能还有第三个预测。有趣的是,出于频率论的目的,您不能将信息传递给第二个样本,因此预测与先验知识无关。这是不好的。如果它是八个正面,或者八个反面怎么办。最大似然估计量和最小方差无偏估计量将适用于没有方差的双头或双尾硬币。

对于第二轮预测,不存在可接受的频率估计量。在存在先验知识的情况下,频率统计不再被接受。现在一个聪明的统计学家只会合并样本,但这确实违反了规则,除非你在做荟萃分析。

但是,您的荟萃分析解决方案仍然存在问题。可以根据间隔和误差构建频率预测,但它仍会以 10/16 为中心,这不是一个可能的解决方案。尽管它是“不偏不倚的”,但它也是不可能的。使用错误会改善这种情况,但这仍然不等于贝叶斯方法。

此外,这不限于这个人为的问题。想象一个数据近似正态但不支持负实数的情况。我见过很多时间序列分析,其中的系数是不可能的。它们是有效的最小方差无偏估计量,但它们也是不可能的解决方案,因为它们被理论和理性所排除。贝叶斯估计器会在不允许的区域上设置零质量,但频率主义者不能。

您理解贝叶斯预测应该有偏差是正确的,事实上,所有使用适当先验做出的估计都保证是有偏差的。此外,偏差会有所不同。然而,没有风险较小的解决方案,当它们存在时,只有在使用频率学方法时风险相同的解决方案。

频率论的预测不依赖于的真实值,这对于贝叶斯也是如此,但确实依赖于观察到的结果的计数。如果包括Frequentist 案例,则预测变为下图。 p在此处输入图像描述

因为它不能纠正某些选择不可能发生的事实,也不能解释先验知识,所以频率论的预测实际上更加极端,因为它平均了尚未发生的无限次数的重复。预测分布结果是二项式的超几何分布。

偏差是您必须为普遍提高的贝叶斯精度支付的保证价格。您将失去防止误报的保证。你失去了公正。您获得有效的赌博赔率,这是非贝叶斯方法无法产生的。

虽然一个人在特定时刻可能对某件事发生的可能性有误,但贝叶斯定理背后的想法(用于在面对新信息时更新您的理解)是更新后的概率可能并不完全正确,但它会比你开始时更正确。

我想到了一种情况,我试图估计一块田地里的羊数量——让我们想象一下真的有 100 只,但我要估计根本没有羊(这和我一样错误)可以得到)。然后,我看到一只羊,更新我的估计——现在,我估计田里有一只羊!我仍然错了,但我的错误比开始时要少一些。这样,如果你收集到足够的信息,你就可以更新你的估计以更接近现实——而且,事实上,通过收集足够的数据,你可以任意接近现实。

Savage 的The Foundations of Statistics对此做了一个很好的描述(尽管技术性很强)这是一本很好的读物,他开发了一种从贝叶斯角度来看更有意义的概率思考方式。

当您考虑指定先验与使用原始频率方法时,有时即使先验明显错误,预测也会好得多,因为您根本不需要先验精确来改进事情一个非常粗略的先验有助于排除不切实际的情况,即使指定得非常不准确,这也会有所帮助。这是一种将参数限制为可能值子集的概率方法。开个玩笑:在估计一个领域的绵羊数量的情况下,排除大于的值是一个安全的猜测。1052

一个适得其反的先验当然在理论上是可能的:坚定地相信一些完全不真实的东西。但这通常是在困难的形式化中错误的数学理解的结果。这是此类错误的一个示例:http ://www.nowozin.net/sebastian/blog/estimating-discrete-entropy-part-3.html

如果整体形式化是好的,错误的数字信息的后果会更小。我被最简单的贝叶斯方法之一说服了:线性回归中L2

模型是如果与特征维度相比,您的数据较小,则频率基本估计器 (MLE)通常会极度过度拟合并产生非常差的预测,因为您允许它考虑所有可能的. 与像 0 这样的常量预测变量(在实际情况下)相比,它具有更高的误差并不罕见。Y=βX+ϵβ^β

现在一些模糊的直觉、经验、谣言......告诉你实际上不太可能有一个大范数,用一个大范数估计只是过度拟合的影响。ββ

你认为真正的往往相当小。你说:我的大约是 0 方差...嗯...不知道...说 1。形式上,这是上的高斯先验。1 是正则化常数。βββ

但是如果你选择 2 而不是 1,你会得到大致相同的结果。而如果你选择1.2,你甚至看不出有什么区别。(这里没有给出一般事实,只是因为这是我们经常观察到的那种事情)。实际上,有一个范围很广的值会比非正则化估计器产生更好的结果,并且误差曲线在最优选择附近往往非常平坦。

在这种情况下,我用错误的先验规范做了一些模拟:你可能会假设一个非常错误的先验,但结果仍然比没有正则化的情况好得多。因为平坦的先验比您可以合理想到的最严重的错误指定更糟糕。

作为超参数,可以松散地选择正则化系数,而不会对预测产生太大影响。在许多机器学习情况下往往是正确的:你对超参数、hyper-hpyer-paramters 的了解越多……它对错误规范的敏感度就越低。(通常,如果方法好的话)

首先,贝叶斯定理没有做出预测。这是一个数学定律。但是你必须得到正确的概率才能让它发挥作用。

其次,您可能正在考虑使用贝叶斯方法进行数据分析。这确实取决于先验,但是 a)有时(通常)选择统一的先验 b)其他时候,先验基于实际数据。

第三,卡尼曼和特沃斯基真的与此无关。他们谈论人们如何用概率推理,即使概率是给他们的。例如,10% 的死亡风险与 90% 的生存机会不同。K&T 对“理性人”的概念造成了很大的破坏,但这更多地是关于经济学而不是统计数据。