关于文章“抛弃 p 值。改用 Bootstrap 置信区间”的三个问题

机器算法验证 假设检验 置信区间 p 值 引导程序
2022-01-23 08:30:43

我不是训练有素的统计学家,学生们要求我向他们解释一篇名为“Ditch p-values. Use Bootstrap confidence interval instead”的文章。作者似乎是一位杰出的学者,但是,我对那里的一些材料感到困惑。请忽略这篇文章,如果它对你来说太长了。我将其缩减为仅 3 个问题,我将根据这些推断出其他答案。

让我们举一个简单但有启发性的例子:我们要确定罗伯特的公民身份。零假设:H0,罗伯特是美国公民。备择假设:H1,他不是。我们的数据:我们知道罗伯特是美国参议员。3.3 亿美国公民中有 100 位参议员,因此在零假设下,我们的数据(即 p 值)的概率为 100 / 300,000,000 ≈ 0.000000303。根据统计显着性规则,我们可以安全地得出结论,我们的零假设被拒绝,罗伯特不是美国公民。

我说这不是 p 值是对的吗(这是看到测试统计的这个或更多极值的概率)?这是一个正确的统计测试程序吗?我有一种直觉,认为应用假设检验是错误的情况,但我无法正式回答原因。

P 值是在所有计算都必须手动完成的时候发明的,因此它们依赖于简化的统计假设。从广义上讲,他们假设你观察到的现象服从一些有规律的统计分布

这似乎是错误的,但问题是:我们可以说非参数测试也依赖于一些规则的统计分布吗?他们不仅有假设,而且从技术上讲,他们的统计数据也遵循一些分布。

假设业务决策者正在考虑两种可能的行动,A 和 B。根据观察到的数据,零收益或负收益的概率为:

动作 A 为 0.08

动作 B 为 0.001

决策者是否应该根据这些数字选择行动 B?如果我告诉你相应的 90% 置信区间是:

[-0.5m; 99.5m] 用于动作 A [0.1m; 0.2m] 对于行动 B 行动 B 导致零或负结果的概率可能较低,但其对业务的预期价值要低得多,除非业务非常规避风险。

我们可以根据置信区间说什么是期望值吗?在这种情况下是一个明确的决定吗?我一直认为置信区间不一定是对称的,但我在这里开始怀疑。

4个回答

“这不是 p 值(这是看到测试统计的这个或更极端值的概率),我说得对吗?” 好问题!是的,你是对的,这不是 p 值。更重要的是,该示例不是假设检验,也不是显着性检验。任何使用它作为参数来丢弃 p 值或假设检验的人要么感到困惑,要么试图混淆。

所谓的 p 值 100 / 300,000,000 实际上是被观察为美国公民的人成为参议员的可能性!不是 p 值,具有讽刺意味的是,它是根据该人是公民的假设计算得出的!

美国参议员的例子严重改编自 Cohen 的原文(1994 年),该原文旨在质疑作为证据使用 p 值的基础的“Fisher 析取”的效用。

关于科恩反对费舍尔析取的论点:

[我从我十年前写的一篇论文(未发表:拒绝!)中删除了这一部分。]

Cohen (1994) 的一篇非常高引用的论文声称 Fisher 的析取是有缺陷的,他通过在 Fisher 的析取和这个三段论之间进行类比来说明他的主张:

如果一个人是美国人,那么他可能不是国会议员。

此人是国会议员。

因此,他可能不是美国人。

正如科恩所说,他关于美国人的三段论的最后一行是错误的,即使如果在第一行和最后一行中省略了“可能”这个词,它也是正确的。然而,他认为它直接类似于 Fisher 的析取是不正确的。正如 Hagen (1997) 在 Cohen 的论文发表几年后发表的回应中指出的那样,Fisher 析取中的零假设指的是总体,而在 Cohen 的三段论中,它指的是样本。

以三段论的形式表示,Fisher 的析取是这样的:

  • 在零假设下,随机样本的极端 P 值很少见。

  • 观察到一个极端的 P 值。

  • (因此,要么发生了罕见事件,要么原假设
    为假。)

  • 因此,零假设可能是错误的。

这并没有错,尽管括号中的行在逻辑上不是必需的。当科恩的三段论被改变为指代人口时,它也是正确的:

  • 国会议员在美国人中很少见。

  • 此人是国会议员。

  • (因此,要么发生了罕见事件,要么此人不是来自美国人的随机样本。)

  • 因此,这个人可能不是来自美国人的随机样本。

如果一个被选中的人原来是国会议员,那么就发生了不寻常的事件,或者这个人是非美国人口中的一员,其中国会议员更为常见,或者选择不是随机的。假设美国国会的所有成员都是美国人,则没有相关的非美国人口可能会从其中随机选择此人,因此观察结果对随机选择方面产生了怀疑。Cohen 的断言是不正确的,即 Fisher 的析取缺乏逻辑完整性。

(值得注意的是,科恩的论文包含许多对零假设检验的批评,这些批评指的是使用他所描述的“围绕神圣 0.05 标准的机械二分法决策”所产生的问题。他在这方面是正确的,但是这些批评并不直接适用于用作证据指标的 P 值。)

科恩,J. (1994)。地球是圆的 (p <.05)。美国心理学家,49(12),997。

哈根,RL (1997)。赞美零假设统计检验。美国心理学家,52(1),15-24。

1 他们的意思并不像人们认为的那样

我说这不是 p 值是对的吗(这是看到测试统计的这个或更多极值的概率)?这是一个正确的统计测试程序吗?我有一种直觉,认为应用假设检验是错误的情况,但我无法正式回答原因。

有人可能会争辩说,从技术上讲,它是一个 p 值。但是,这是一个相当无意义的 p 值。有两种方法可以将其视为无意义的 p 值

  • Neyman 和 Pearson建议,为了计算 p 值,您选择似然比(在原假设和备择假设之间)最高的区域。当偏离原假设意味着更有可能进行极端观察时,您将观察视为“极端” 。

    美国公民的例子并非如此。如果零假设“罗伯特是美国公民”是错误的,那么“罗伯特是美国参议员”的观察结果就不太可能了。因此,从 Neyman 和 Pearson 的假设检验方法的角度来看,这是一种非常糟糕的 p 值计算类型。

  • Fisher 的假设检验方法的角度来看,您可以测量一些效果,并且 p 值的重点是量化统计显着性。它作为实验精度的表达是有用的。

    p 值量化了实验在偏差量化方面的好坏程度。从统计学上讲,由于测量值的随机波动,总会在一定程度上产生影响。当一个观测值是一个足够大的波动时,它被认为具有统计学意义,以至于当实际上没有影响时(当零假设为真时),我们观察到表面上的影响的概率很低。很有可能我们观察到效果而实际上没有效果的实验并不是很有用。我们使用 p 值来表示这个概率。

    通过报告 p 值,研究人员可以证明他们的实验具有足够小的噪音和足够大的样本量,因此观察到的效果在统计上是显着的(不太可能只是噪音)。

    Fisher 的 p 值是噪声和随机波动的一种表达,它们是一种信噪比的表达。建议仅在效应与噪声水平相比足够大时才拒绝假设。

    尽管在费舍尔的观点中没有替代假设,但当我们表达 p 值时,这样做是为了将某些效应测量为相对于零(无效应)假设的偏差。一定有某种方向感可以认为是效果偏差

    在美国公民实验的情况下,“罗伯特是美国参议员”的测量与某些效应的测量或与原假设的偏差无关。为它表达一个 p 值是没有意义的。

美国国籍的例子可能有点奇怪和错误。但是,这并不意味着正确。关键是要表明简单的 p 值不是很有意义和正确的。我们需要考虑的还有测试的力量(这在美国公民的例子中是缺失的)。低 p 值可能很好,但如果 p 值同样低,甚至更低,作为替代解释怎么办?如果您的假设检验不佳,那么我们可以基于(糟糕的)低 p 值“拒绝假设”,而实际上,没有替代假设更适合。

示例 1:假设您有两个罐子,一个装有 50% 的金币和 50% 的银币,另一个装有 75% 的金币和 25% 的银币。你从一个罐子里拿出10个硬币,都是银子,我们有哪个罐子?我们可以说先验赔率是 1:1,后验赔率是 1:1024。我们可以说这个罐子很可能是金银比为 50:50 的罐子,但是当我们观察 10 枚银币时,这两种假设都不太可能,也许我们应该不信任我们的模型。

示例 2:假设您有按二次曲线 y = a + cx^2 分布的数据。但是你用直线 y = a + b x 拟合它。当我们拟合模型时,我们发现零斜率(无影响)的 p 值极低,因为数据不匹配平线(因为它遵循二次曲线)。但这是否意味着我们应该拒绝系数 b 为零的假设?差异,低 p 值,不是因为原假设为假,而是因为整个模型为假(即当 p 值低时的实际结论,原假设和/或统计模型为假) .

2 他们依赖隐藏的假设

这似乎是错误的,但问题是:我们可以说非参数测试也依赖于一些规则的统计分布吗?他们不仅有假设,而且从技术上讲,他们的统计数据也遵循一些分布

非参数测试的重点是我们不对数据做任何假设。但是我们计算的统计数据可能遵循某种分布。

示例:我们想知道一个样本是否大于另一个样本。假设样本是配对的。然后在不知道分布的情况下,我们可以只计算哪一对更大。与抽取样本的总体分布无关,该符号统计量将遵循二项分布。

因此,非参数检验的重点不是计算的统计量没有分布,而是统计量的分布独立于数据的分布。

这个“他们依赖隐藏的假设”的观点是正确的。然而,它有点苛刻,并且在有限的意义上勾勒出假设(好像假设只是为了简化计算而进行的简化)。

事实上,许多模型都是简化的。但我会说参数分布仍然有用,即使我们现在拥有更多的计算能力并且没有必要进行简化。原因是参数分布并不总是简化。

  • 一方面:自举或其他模拟可以接近与计算相同的结果,当计算做出假设、近似和简化时,自举甚至可能做得更好。

  • 另一方面:如果参数分布为真,它会为您提供引导无法提供的信息。当您只有少量数据时,您无法正确估计 p 值或置信区间。使用参数分布,您可以填补空白。

    示例:如果您有来自分布的十个样本,那么您可能会以 10% 的倍数估计分位数,但您将无法估计更小的分位数。如果您知道分布可以通过某种分布来近似(基于理论和先前的知识,这样的假设可能还不错),那么您可以使用与参数分布的拟合来内插十个样本并将其外推到其他分位数。

    示例 2:将参数测试表示为仅对简化计算有用是稻草人的论点。这不是真的,因为它远非唯一的原因。人们使用参数测试的主要原因是因为它们更强大。例如,将参数 t 检验与非参数 Mann-Whitney U 检验进行比较。选择前者不是因为计算更容易,而是因为它可以更强大。

3 他们偏离了真正的问题

我们可以根据置信区间说什么是期望值吗?在这种情况下是一个明确的决定吗?我一直认为置信区间不一定是对称的,但我在这里开始怀疑。

不,置信区间不能提供完整信息。相反,您应该计算一些成本函数来量化决策中的所有考虑因素(需要完整分布)。

但置信区间可能是一个合理的指标。从单点估计到范围的步骤是一个很大的差异,并为表示增加了一个全新的维度。

您在这里的批评也正是博文作者的重点。您批评置信区间未提供完整信息。但是动作 A 的均值 0.08 和动作 B 的均值 0.001 的信息比置信区间还要少,这就是作者所指出的。

这第三点更多的是点估计与区间估计的问题。也许 p 值促进了点估计的使用,但将其用作对 p 值的批评有点牵强。该示例甚至不是关于 p 值的情况,而是关于两种情况的贝叶斯后验。

这篇文章的作者不明白假设检验和置信区间服务于不同的推理目的:

  • 置信区间(bootstrap 或其他)用于为目标参数 提供合理的估计范围

  • 假设检验用于决定关于目标参数的特定主张是否存在证据或缺乏证据。

我同意置信区间比单个假设的单个 p 值提供的推理要多得多,但是没有理由放弃 p 值,也没有理由仅仅依赖引导置信区间。置信区间是在特定 alpha 水平上不显着(无法拒绝)的所有假设的集合。置信区间是假设检验的倒置。如果使用自举抽样分布的百分位数,这是一个粗略的近似置信区间,它不遵循适当的构造,但仍然可以很好地工作,特别是当参数估计量近似正态分布时。我发现置信曲线是可视化频率论推理的好方法。

最好的解决方案是提高认识并促进继续教育,而不是放弃方法。 是 Eric Gibson 关于该主题的一篇精彩论文的链接。 是我的一篇关于置信曲线和可视化推理的论文的链接。

吉布森,E.(2020)。p 值在判断证据强度和现实复制预期中的作用。生物制药研究统计13(1):1-13

约翰逊,GS(2021)。通过权力推断进行药物开发决策。手稿。