贝叶斯究竟如何定义(或解释?)概率?

机器算法验证 可能性 贝叶斯 常客 定义 哲学的
2022-03-26 18:10:43

试图理解贝叶斯与常客的系列文章的一部分:1 2 3 4 5 6 7

我想我知道贝叶斯主义者和频率主义者在假设之间进行选择的方式有所不同,但我不太确定这是否应该或如何向我解释他们如何看待概率。

据我了解,根据Wiki,常客“定义”概率如下:

给定概率空间 , , ,其中是进行的试验次数,是 A 在这些试验中发生的次数。(Ω,F,P)AFP(A)nAntntnA

此外,P(A)=limntnAnt

好的,那么贝叶斯如何定义概率?除了定义概率之外,以上似乎是计算事件概率的一种方法。

贝叶斯学派似乎假设先验概率,进行一些试验,然后更新他们的概率,但这似乎并不能真正解释他们如何定义概率。

Wiki说“贝叶斯概率是我们为表示知识状态或信念状态而分配的一个量。”

这到底是什么意思呢?状态是学位的同义词吗?例如,Walter 认为特定硬币是公平的信念状态用数字 0.1 表示,而 Jesse 认为同一硬币公平的信念状态用数字 0.2 表示。给定新信息,Walter 的信念状态可能变为 0.96,而 Jesse 的信念状态可能变为 0.03。所以,一开始,Walter 不太倾向于相信硬币是公平的,但后来 Jesse 更倾向于相信硬币是公平的?

我希望在符号方面有一些东西,比如上面的常客。

同一个 Wiki 页面说“概率的贝叶斯解释可以看作是命题逻辑的扩展,它可以用假设进行推理,即真假不确定的命题。”似乎贝叶斯概率和频率论概率类似于模糊和布尔逻辑,分别。

3个回答

我相信大多数“频率论者”和“贝叶斯论者”都会以同样的方式严格定义概率:通过Kolmogorov 的公理和测度论,取模一些关于有限与可数可加性的问题,具体取决于您在与谁交谈。因此,就“符号”而言,我认为您可能会发现大致相同的定义。每个人都同意概率如何表现

我想说主要区别在于对概率的解释我(半开玩笑的激进贝叶斯)更喜欢的解释是概率是有关事件的信息的连贯表示

这里的“连贯”具有技术含义:这意味着如果我用概率表示我关于世界的信息,然后使用这些概率来确定我对任何给定事件发生或不发生的赌注,我确信我不能被对我下注的经纪人肯定是输家。

请注意,这不涉及“长期相对频率”的概念;事实上,我可以通过概率的语言连贯地表达我关于一次性事件的信息——比如明天的太阳爆炸。另一方面,就长期相对频率而言,谈论“太阳明天会爆炸”事件似乎更困难(或者可以说不太自然)。

要深入了解这个问题,我建议您参考 Jay Kadane 出色(且免费)的《不确定性原理》的第一章。

更新:我写了一篇相对非正式的博客文章来说明连贯性。

正如其他人已经指出的那样,概率没有特定的贝叶斯定义。只有一种定义概率的方法,即它是通过概率度量分配给某个事件的实数,它遵循概率公理如果对概率有不同的定义,我们将无法始终如一地使用它,因为不同的人会理解它背后的不同事物。

虽然我们定义它的方法只有一种,但有多种方法可以解释概率。概率是一个数学概念,与现实世界无关(引用 de Finetti,“概率不存在”)。要将其应用于现实世界,我们需要将数学转化或解释为现实世界中发生的事情。有多种不同的方法来解释概率,甚至贝叶斯之间的不同解释(查看斯坦福哲学百科全书中概率解释以获得评论)。与贝叶斯统计最相关的一种是主观主义观点,也称为个人概率

在主观主义者看来,概率是一种相信程度,或确认程度它衡量某人认为某事可信的程度。可以根据投注行为最清楚地分析或观察到它(de Finetti,1937;另见 Savage,1976;Kemeny,1955):

让我们假设一个人有义务评估 他愿意根据给定事件 ,以换取总金额 ; 我们将根据定义说,这个数字的概率程度的度量,或者更简单地说,的概率(根据所考虑的个人;这个规范可以是如果没有歧义,则隐含)。pSEpSpEpE

投注是人们需要量化他相信某事的“可能性”的情况之一,而这种信念的衡量标准显然是概率。将这种信念转化为数字,至少转化为信念的度量,即概率。

主观主义者中的主要人物之一布鲁诺·德菲内蒂(Bruno de Finetti)注意到主观主义者的观点与概率公理是一致的,它需要遵循它们:

如果我们只承认,首先,一个不确定事件在我们看来只能是(a)同样可能的,(b)更可能的,或(c)比另一个更不可能的;其次,在我们看来,不确定的事件总是比不可能的事件更有可能,而比必然事件更不可能;最后,第三,当我们判断事件比事件 E更有可能发生本身比事件 E'' 更有可能 那么事件只能看起来比EEEEE (传递性),只要在这三个明显微不足道的公理上加上第四个公理就足够了,它本身就具有纯定性的性质,以便严格地构建整个概率论。第四个公理告诉我们,不等式保留在逻辑和中:如果不相容,则将或多或少比更可能,或者它们将同样可能,根据任何地方或多或少有可能然后,或者它们同样可能。更一般地,可以由此推导出两个不等式,例如EE1E2E1EE2EE1E2

E1 is more probable then E2,E1 is moreprobable then E2,

可以添加给

E1E1 is more probable then E2E2

前提是添加的事件彼此不兼容()。E1E1E2E2

多位不同的作者提出了类似的观点,例如 Kemeny (1955) 或 Savage (1972),他们喜欢 de Finetti 在公理和主观主义概率观之间建立联系。他们还表明,这种信念度量需要与概率公理一致(因此,如果它看起来像概率并且嘎嘎声像概率......)。此外,Cox (1946) 表明,概率可以被认为是形式逻辑的扩展,它超越了二进制真假,允许不确定性。

如您所见,这与频率无关。当然,如果你观察到尼古丁吸烟者死于癌症的频率高于非吸烟者,那么理性地你会认为这种死亡对于吸烟者来说更可信,因此频率解释与主观主义观点并不矛盾。使这种解释吸引人的原因在于它也可以应用于与频率无关的情况(例如唐纳德特朗普赢得 2016 年美国总统大选的概率,空间中除我们之外的某个地方存在其他智能生命形式的概率等) )。当采用主观主义观点时,您可以以概率的方式考虑此类情况并建立此类情况的统计模型(参见FiveThirtyEight的选举预测示例,这与将概率视为基于可用证据测量置信度的思考是一致的)。这使得这种解释非常宽泛(有人说过于宽泛),因此我们可以灵活地将概率思维应用于不同的问题。是的,这是主观的,但 de Finetti (1931) 注意到,由于频率论的定义是基于多个不切实际的假设,它并没有使它更“理性”的解释。


de Finetti, B. (1937/1980)。La Prévision:Ses Lois Logiques,Ses Sources Subjectives。远见。它的逻辑规律,它的主观来源。] Annales de l'Institut Henri Poincaré, 7, 1-68.

凯梅尼,J. (1955)。公平投注和归纳概率。符号逻辑杂志,20, 263-273。

野蛮人,LJ (1972)。统计学的基础多佛。

考克斯,RT(1946 年)。概率、频率和合理期望。美国物理学杂志,14(1),1-13。

de Finetti, B. (1931/1989)。“概率论:关于概率论和科学价值的批判性论文”。Erkenntnis, 31, 169-223。

我会尽量用我的术语来解释清楚。正如你所做的那样,我们将专注于一枚硬币,因此XBernoulli(p)Pr(X=1)=p

贝叶斯主义者和频率主义者都将视为一个随机变量,并且他们对概率分布有着相同的看法。然而,贝叶斯也使用概率分布来模拟他们关于固定参数的不确定性,在这种情况下是XPr(X)p

如果我们现在让并定义,正如你所指出的x1,x2,Bernoulli(p)hn=i=1nxi

limnhnn=p.

这是相关的,因为的 MLE 。但是请注意,对于任何正数(实际上它们甚至不需要是正数):hn/npa,b

limnhn+an+a+b=p.

估计器的一个缺点是对于小的这可能是疯狂的。最极端的例子是当的估计将是如果我们设置并使用第二个估计值会怎样。如果我们在第一次翻转时得到,我们更新后的估计是,大于但不像那样极端。hn/nnn=1p01a=b=516/1150%1

通过以先验(最终是后验)分布的形式的不确定性,可以很容易地得出这种更受约束的估计。如果您想深入查看此示例,这称为Beta-Binomial它涉及在二项分布的参数上放置一个 Beta 先验,并获取结果后验的期望。p