如何严格证明选择的假阳性/假阴性错误率和基本成本比?

机器算法验证 假设检验 p 值 统计能力 类型 i 和 ii 错误
2022-03-01 10:38:05

语境

一组社会科学家和统计学家 ( Benjamin et al., 2017 ) 最近提出,用作确定“统计显着性”的阈值 = .05) 需要调整到更保守的阈值( = .005)。一群相互竞争的社会科学家和统计学家(Lakens 等人,2018 年)做出了回应,反对使用这个——或任何其他——任意选择的阈值。以下是来自 Lakens 等人的引述。(第 16 页)这有助于举例说明我的问题的主题:αα

理想情况下,alpha 水平是通过使用决策理论将成本和收益与效用函数进行比较来确定的。与从难以获得的样本中收集数据相比,在分析大型现有数据集时,这种成本效益分析(以及阿尔法水平)是不同的。科学是多种多样的,由科学家来证明他们决定使用的阿尔法水平的合理性。... 研究应该以严谨的科学原则为指导,而不是启发式和任意的阈值。

问题

我想知道如何以一种“以严格科学原则为指导”的方式来证明所选择的 alpha 的合理性,如 Lakens 等人。建议,在大多数社会科学背景下(即,在某些情况下,一个人具有更具体的质量,如利润,需要优化)?

随着 Lakens 等人的传播,我开始看到在线计算器在流通,以帮助研究人员做出这个决定。使用它们时,研究人员需要指定假阳性和假阴性错误的“成本比”。然而,正如这里的计算器暗示的,确定这样的成本比率可能涉及大量的定量猜测工作:

虽然一些错误成本很容易以货币形式量化(直接成本),但另一些则难以用美元计算(间接成本)。...尽管量化具有挑战性,但您应该努力给他们一个数字。

例如,虽然 Lakens 等人。建议研究难以到达的样本作为人们在证明 alpha 时可能考虑的一个因素,似乎人们仍然在猜测该样本有多难到达,因此,如何相应地调整 alpha 的选择。再举一个例子,我似乎很难量化发布假阳性的成本,即其他人随后会在错误推断的前提下投入多少时间/金钱来进行研究。

如果确定这个成本比率在很大程度上是一个主观的最佳猜测问题,我想知道这些决定是否可以(再次,除了优化利润之类的东西)是“合理的”。也就是说,以某种方式存在于对抽样、权衡、影响等的假设之外,?通过这种方式,在我看来,确定假阳性/假阴性错误的成本比率类似于在贝叶斯推理中选择先验——这个决定可能有点主观,会影响结果,因此会引起争论—— - 虽然我不确定这是一个合理的比较。

概括

为了使我的调查具体:

  1. 在大多数社会科学背景下,假阳性/假阴性率及其成本比率是否可以“严格”证明?
  2. 如果是这样,人们可以遵循哪些可推广的原则来证明这些分析选择的合理性(可能是其中的一两个例子)
  3. 如果不是,我对选择成本比率的潜在主观性的类比——类似于贝叶斯先验选择——是否合理?

参考

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.,... Johnson, V.(2017 年 7 月 22 日)。重新定义统计显着性。取自 psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA,... Zwaan, RA(2018 年 1 月 15 日)。证明你的阿尔法。取自 psyarxiv.com/9s3y6

2个回答

(也发布在推特上,但在此处重新发布)我尝试回答:我认为理由不能“纯粹”客观,但它可以基于在理性/经验基础上可以辩护的标准。我认为 RSS 是您可以证明某些类型研究的 p <.005 合理性的一个示例,但我也认为在其他情况下,不同的 alpha 会比 <.005(更高或更低)更优化,具体取决于什么 alpha 是可行的,研究的目的是什么。因此,例如,如果您有 5,000 名参与者并且感兴趣的最小效应大小是 0.10,您可能希望使用 p <.001 并具有 90% 的功效(数字都是虚构的)相比之下,假设您进行了一个小型实验作为研究线的初始“概念证明”。你可能有 N = 100, p < .10, 90% power,

我最近一直在思考同样的问题,我猜心理学中的许多其他人也是如此。

首先,您的每个问题都与选择是客观还是主观有关,但是(正如其他人在这里指出的那样)您还没有完全解释(在您看来)客观与主观选择的构成。

您可能对Gelman & Hennig 2015 年的论文感兴趣,该论文揭示了科学中“客观”和“主观”标签的常见用法中包含的各种价值观。在他们的表述中,“客观”与透明、共识、公正和符合可观察现实的价值观有关,而“主观”与多视角和上下文相关的价值观有关。

与您的问题 3 相关,在贝叶斯看来,概率被定义为对世界的不确定性进行量化。据我了解,“主观贝叶斯”(概率反映个人的信仰状态)和“客观贝叶斯”学派(概率反映共识的合理性)之间存在明显的紧张关系。在客观主义学派中,更加强调以符合共识并且可以检查的透明方式证明先验分布(以及更普遍的模型)的合理性,但是模型的选择肯定是上下文相关的(即,取决于特定问题的共识知识状态)。

在频率论者的概念中,概率反映了在无限独立复制的情况下事件将发生的次数。在 Neyman-Pearson 框架内,规定一个精确的备择假设和一个精确的 alpha,根据数据接受精确的零或精确的备择(总体效应与规定的完全相等),然后报告长期这样做的频率是错误的。

在这个框架内,我们很少有人口效应大小的精确点估计,而是一系列合理的值。因此,以给定的 alpha 为条件,我们没有对 2 类错误率的精确估计,而是一个合理的 2 类错误率范围。同样,我同意您的一般观点,即我们通常无法准确了解类型 1 错误或类型 2 错误的成本和收益实际上是什么。这意味着我们经常面临这样一种情况,即我们首先对我们的假设应该是什么的信息非常不完整,而关于接受和拒绝这个假设的相对成本和收益的信息就更少了。

你的问题:

  1. 在大多数社会科学背景下,假阳性/假阴性率及其成本比是否可以客观地证明?

我认为是这样,因为理由可以是透明的,可以符合共识,可以是公正的,并且可以符合现实(在某种程度上,我们正在使用我们所拥有的关于成本和收益的最佳可用信息)。

然而,我认为这样的理由也是主观的,因为对于如何为给定问题设置 alpha 可以有多种有效的观点,并且构成适当 alpha 的内容可以有意义地依赖于上下文。

例如,近年来,文献中的许多效应反映了 M 型或 S 型错误,这一点变得很清楚。它们也可能反映类型 1 错误,在一定程度上,重复研究能够提供完全零效应无效的证据。

与这一观察结果相关的是,一个新兴的共识是,肯定索赔的 p 值阈值应保持不变或更严格(即,没有人主张将 alpha 全面增加到 0.10 或 0.20) . 类似地,出现了一个共识,即不应将 p 值用作发布的标准(例如,注册报告格式)。

对我来说,这反映了一种“客观”的信息来源——也就是说,在我看来,越来越多的共识是虚假声明对这个领域来说是昂贵的(即使我们不能为这些成本计算一美元)。在我看来,没有明确的共识认为,未能达到 p 值阈值对该领域来说是一个巨大的成本。如果有成本,如果未能达到 p 值阈值不影响估计是否将其纳入已发表的论文,则可以减轻成本。

  1. 如果是这样,人们可以遵循哪些可推广的原则来证明这些分析选择的合理性(可能是其中的一两个例子)

我不确定,但我倾向于某种原则,即决策应该基于对特定背景下不同类型分析选择的成本和收益的透明(本地或全球)共识判断,即使在面对关于这些成本和收益可能是什么的可悲的不完整信息。

  1. 如果不是,我对选择成本比率的潜在主观性的类比——类似于贝叶斯先验选择——是否合理?

是的,在频率论和贝叶斯传统中,统计模型的许多不同方面都存在主观性(即多视角和上下文依赖性)以及客观性(即透明度、共识、公正性和与可观察现实的对应)的空间以及如何使用该模型(选择的先验、选择的可能性、选择的决策阈值等)。