零假设为真的概率

机器算法验证 可能性 假设检验 贝叶斯
2022-03-20 18:27:53

所以,这可能是一个常见的问题,但我从来没有找到一个令人满意的答案。

你如何确定原假设为真(或假)的概率?

假设您为学生提供了两个不同版本的测试,并想查看这些版本是否相同。您执行 t 检验,它给出的 p 值为 0.02。多么好的 p 值!这一定意味着测试不太可能是等效的,对吧?不,不幸的是,P(results|null) 似乎没有告诉你 P(null|results)。正常的做法是在遇到低 p 值时拒绝原假设,但我们怎么知道我们没有拒绝很可能为真的原假设?举一个愚蠢的例子,我可以设计一个误报率为 0.02 的埃博拉病毒测试:将 50 个球放入一个桶中,并在其中一个上写上“埃博拉病毒”。如果我用这个测试某人并且他们选择了“埃博拉”球,那么 p 值(P(选择球|他们没有埃博拉病毒))是 0.02,

到目前为止我考虑过的事情:

  1. 假设 P(null|results)~=P(results|null)——对于一些重要的应用程序来说显然是错误的。
  2. 在不知道 P(null|results) 的情况下接受或拒绝假设——我们为什么要接受或拒绝它们?我们拒绝我们认为可能是错误的东西并接受可能是真的东西的全部意义不是吗?
  3. 使用贝叶斯定理——但是你如何得到你的先验?难道你最终不会回到同一个地方试图通过实验确定它们吗?先验地选择它们似乎非常武断。
  4. 我在这里发现了一个非常相似的问题:stats.stackexchange.com/questions/231580/。这里的一个答案似乎基本上是说,询问零假设为真的概率是没有意义的,因为这是一个贝叶斯问题。也许我本质上是一个贝叶斯主义者,但我无法想象不问这个问题。事实上,对 p 值最常见的误解似乎是它们是真零假设的概率。如果您真的不能以常客的身份提出这个问题,那么我的主要问题是#3:您如何在不陷入循环的情况下获得先验?

编辑:感谢您的所有深思熟虑的答复。我想谈谈几个共同的主题。

  1. 概率的定义:我敢肯定有很多关于这方面的文献,但我的幼稚概念类似于“相信一个完全理性的人会提供信息”或“在这种情况下最大化利润的投注几率”被重复,未知数被允许变化”。
  2. 我们能知道 P(H0|results) 吗?当然,这似乎是一个棘手的问题。但我相信,每个概率在理论上都是可知的,因为概率总是以给定信息为条件。每个事件都会发生或不发生,因此在完整信息下不存在概率。它只存在于信息不足的情况下,因此应该是可知的。例如,如果有人告诉我有人有硬币并询问正面的概率,我会说 50%。硬币可能有 70% 的权重是正面,但我没有得到那个信息,所以我掌握的信息的概率是 50%,就像它碰巧落在反面一样,概率是 70%当我了解到这一点时。由于概率总是以一组(不充分的)数据为条件,
    编辑:“总是”可能有点太强了。可能有一些我们无法确定概率的哲学问题。尽管如此,在现实世界的情况下,虽然我们“几乎永远不会”有绝对的确定性,但应该“几乎总是”是一个最佳估计。
4个回答

您当然已经确定了一个重要问题,而贝叶斯主义是解决它的一种尝试。如果你愿意,你可以选择一个无信息的先验。我会让其他人填写更多关于贝叶斯方法的信息。

然而,在绝大多数情况下,你知道null 在人群中是假的,你只是不知道影响有多大。例如,如果你做出一个完全荒谬的假设——例如,一个人的体重与他们的 SSN 是奇数还是偶数有关——并且你设法从整个人群中获得准确的信息,那么这两种方法将不会完全相等。它们(可能)会有一些微不足道的差异,但它们不会完全匹配。' 如果你走这条路,你将不再强调 p 值和显着性检验,并花更多时间查看效应大小的估计及其准确性。因此,如果您有一个非常大的样本,您可能会发现 SSN 为奇数的人比 SSN 为偶数的人重 0.001 磅,并且此估计的标准误差为 0.000001 磅,因此 p < 0.05 但没有人应该关心。

为了回答这个问题,您需要定义概率。这是因为原假设要么为真(除非在考虑点原假设时它几乎永远不会是)要么为假。一个定义是,我的概率描述了我个人的信念,即我的数据来自该假设的可能性与我的数据来自我正在考虑的其他假设的可能性相比。如果你从这个框架开始,那么你的先验只是你基于你之前所有信息的信念,但不包括手头的数据。

关键思想是,粗略地说,您可以凭经验证明某事是错误的(只需提供一个反例),但您不能证明某事绝对正确(您需要测试“一切”以表明没有反例)。

可证伪性是科学方法的基础:假设一个理论是正确的,并将其预测与您在现实世界中观察到的结果进行比较(例如,Netwon 的引力理论被认为是“正确的”,直到发现它确实如此在极端情况下不能很好地工作)。

这也是假设检验中发生的情况:当 P(results|null) 较低时,数据与理论相矛盾(或者您不走运),因此拒绝原假设是有意义的。事实上,假设 null 为真,则 P(null)=P(null|results)=1,所以 P(results|null) 低的唯一方法是 P(results) 低(运气不好)。

另一方面,当 P(results|null) 很高时,谁知道呢。也许 null 是假的,但 P(result) 很高,在这种情况下,除了设计一个更好的实验之外,你真的什么都做不了。

让我重申一下:您只能证明原假设(可能)是错误的。所以我想说答案是你第二点的一半:当 P(results|null) 很低时你不需要知道 P(null|results) 来拒绝 null,但你不能说 null 是真的它 P (results|null) 很高。

这也是为什么可重复性非常重要的原因:五分之五的倒霉是可疑的。

-------------------------------------------------- ---------------------

(编辑:我认为将我对这个问题的评论的版本放在这个答案的顶部会很有用,因为它要短得多)

当 p(a|b) 被视为因果关系时,就会发生 p(a|b) 的非对称计算,例如 p(result|hypothesis)。这种计算不能在两个方向上起作用:假设会导致可能结果的分布,但结果不会导致假设的分布。

P(result|hypothesis)是基于因果关系假设->结果的理论值。

如果 p(a|b) 表示相关性,或观察到的频率(不一定是因果关系),那么它就变得对称了。例如,如果我们在列联表中记下运动队赢/输的比赛次数以及运动队得分小于或等于/超过 2 个目标的比赛次数。那么 P(win|score>2) 和 P(score>2|win) 是相似的实验/观察(非理论)对象。

-------------------------------------------------- ------------------

非常简单

表达式 P(result|hypothesis) 看起来如此简单,以至于人们很容易认为您可以简单地颠倒这些术语。但是,“结果”是一个随机变量,具有概率分布(给定假设)。而且“假设”(通常)不是随机变量。如果我们将“假设”设为随机变量,那么它意味着不同可能假设的概率分布,就像我们有不同结果的概率分布一样。(但结果并没有给我们这个假设的概率分布,只是通过贝叶斯定理改变了分布)


一个例子

假设您有一个带有 50/50 比例的红色/蓝色弹珠的花瓶,您可以从中抽出 10 个弹珠。然后你可以很容易地表达像P(结果|花瓶实验)这样的东西,但是表达P(花瓶实验|结果)没有什么意义。结果(就其本身而言)不是不同可能的花瓶实验的概率分布。

如果您有多种可能的花瓶实验类型,在这种情况下,可以使用 P(花瓶实验的类型)之类的表达式并使用贝叶斯规则来获得 P(花瓶实验的类型|结果),因为现在的类型花瓶实验是一个随机变量。(注:更准确地说是 P(花瓶实验的类型|花瓶实验类型的结果和分布))

尽管如此,这个 P(type of vase Experiment|outcome) 需要关于给定初始分布 P(type of vase Experiment) 的(元)假设。


直觉

也许下面的表达有助于理解一个方向

X) 给定关于 X 的假设,我们可以表达 X 的概率。

因此

1) 给定关于结果的假设,我们可以表达结果的概率。

2)给定关于这些假设的(元)假设,我们可以表达假设的概率。

贝叶斯规则允许我们表达(1)的逆,但我们需要(2),假设需要是一个随机变量。


拒绝作为解决方案

因此,在给定结果的情况下,我们无法获得假设的绝对概率。那是生活中的事实,试图与这个事实抗争似乎是找不到满意答案的根源。找到满意答案的解决方案是:接受您无法获得假设的(绝对)概率。


常客

与无法接受假设一样,当 P(result|hypothesis) 接近于零时,我们也不应该(自动)拒绝该假设。这仅意味着有证据支持我们改变信念,并且还取决于 P(结果)和 P(假设)我们应该如何表达我们的新信念。

当常客有一些拒绝方案时,那很好。他们表达的不是假设是真是假,也不是这种情况的概率。他们无法做到这一点(没有先验)。相反,他们表达的是他们方法的失败率(置信度)(假设某些假设是正确的)。


无所不知

摆脱这一切的一种方法是消除概率的概念。如果你观察花瓶中的 100 颗弹珠,那么你可以表达关于假设的某些陈述。所以,如果你变得无所不知并且概率的概念无关紧要,那么你可以说明一个假设是否正确(尽管概率也在等式之外)