教科书中没有的可选停止规则

机器算法验证 参考 类型 i 和 ii 错误 最佳停止
2022-01-27 06:14:54

停止规则会影响 P 值和与决策相关的错误率之间的关系。Simmons 等人最近的一篇论文。2011 年创造了“研究人员自由度”一词来描述他们认为对心理学文献中许多被发现不可重复的报告负责的行为集合。

在这些行为中,可选的停止规则或未声明的临时分析是我目前感兴趣的。我向我的学生描述了它们对错误率的影响,但我的学生使用的教科书似乎没有描述它们(或者没有采用!)。在我大学的主书店里,有十四本统计学教科书,面向生物科学、商业、工程等各个学科的入门级学生。其中只有一本包含索引项“顺序测试”,没有索引项“停止规则”。

是否有解释可选停止规则问题的入门级统计教科书?

Simmons, JP, Nelson, LD 和 Simonsohn, U. (2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理科学,22(11),1359-1366。doi:10.1177/0956797611417632

3个回答

如果不了解您的分布和效应大小,您就无法制定停止规则——您不知道先验。

同样,是的,我们需要关注效应大小——只考虑 p 值从未被认为是正确的,我们当然不应该显示显示 p 值或 F 值而不是效应大小的表格或图表。

传统的统计假设推理测试存在问题(科恩说它配得上它的首字母缩写词,如果费舍尔和皮尔森今天看到以他们强烈反对的名字所做的一切,他们都会在坟墓中翻身)。

要确定 N,您需要已经确定目标显着性和功效阈值,以及对分布做出大量假设,特别是您还需要确定要建立的效应大小。Indolering 是完全正确的,这应该是起点——多大的最小效应量才是具有成本效益的!

“新统计”提倡显示效果大小(在适当的情况下作为配对差异),以及相关的标准差或方差(因为我们需要了解分布),以及标准差或置信区间(但后者已经锁定 p 值并决定您是预测方向还是单向投注)。但是用科学的预测设置指定符号的最小效果,这很清楚——尽管科学前的默认设置是反复试验,只是寻找差异。但是,如果您这样做,您再次对正常性做出了假设。

另一种方法是使用箱线图作为非参数方法,但是关于胡须和异常值的约定差异很大,即使这样它们本身也源于分布假设。

停止问题确实不是单个研究人员设置或不设置 N 的问题,而是我们拥有一个由数千名研究人员组成的整个社区,其中 1000 远远超过传统 0.05 水平的 1/alpha。目前提出的答案是提供汇总统计数据(均值、标准差、标准差 - 或相应的“非参数版本 - 中位数等,如箱线图)以促进荟萃分析,并提供所有实验的综合结果(无论它们是否发生)是否达到了特定的阿尔法水平。

与之密切相关的是多重测试问题,它同样充满困难,并且以保持功率的名义使实验过于简单化,同时提出了过于复杂的方法来分析结果。

我认为还没有一个教科书章节明确地处理这个问题,因为我们仍然不知道我们在做什么......

目前,最好的方法可能是继续使用最适合问题的传统统计数据,结合显示汇总统计数据——效果和标准误差,N 是最重要的。置信区间的使用基本上等同于相应的 T 检验,但允许将新结果与已发表的结果进行更有意义的比较,并允许鼓励可重复性和发表重复实验和荟萃分析的精神。

在信息论或贝叶斯方法方面,他们使用不同的工具并做出不同的假设,但仍然没有所有的答案,最终面临同样的问题,或者更糟糕的问题,因为贝叶斯推理从做出明确的决定后退一步回答并仅引用相对假设或不存在的先验证据。

机器学习最终也有需要考虑其重要性的结果——通常使用 CI 或 T 检验,通常使用图表,希望配对而不是仅仅比较,并在分布不匹配时使用适当补偿的版本。它还存在关于引导和交叉验证以及偏差和方差的争议。最糟糕的是,它具有生成和测试无数替代模型的倾向,只需在众多工具箱之一中彻底参数化所有算法,并将其应用于经过深思熟虑存档的数据集,以允许肆无忌惮的多次测试。最糟糕的是,它仍然处于使用准确性或更糟糕的 F 度量进行评估的黑暗时代——而不是机会正确的方法。

我已经阅读了几十篇关于这些问题的论文,但没有找到任何完全令人信服的东西——除了负面调查或荟萃分析论文,这些论文似乎表明大多数研究人员没有根据任何“标准”正确处理和解释统计数据”,旧的或新的。功率、多重测试、大小调整和提前停止、标准误差和置信区间的解释……这些只是其中的一些问题。

请把我击倒——我想被证明是错的!在我看来有很多洗澡水,但我们还没有找到婴儿!在这个阶段,没有任何一种极端观点或名牌方法看起来很有希望成为答案,而那些想要抛弃其他一切的人可能已经失去了孩子。

我不认为可选的“停止规则”是关于最佳停止的技术术语。但是,我怀疑您会在入门级心理学统计教科书中找到有关该主题的深入讨论。

对此的愤世嫉俗的理由是,所有社会科学专业的学生的数学技能都很薄弱。恕我直言,更好的答案是简单的 t 检验不适用于大多数社会科学实验。必须查看效果强度并确定这是否可以解决组间的差异。前者可以表明后者是可能的,但这就是它所能做的。

福利支出、国家监管和城市化的衡量标准都与宗教行为的衡量标准有统计学上的显着关系。但是,仅说明 p 值就是将检验构建为全有或全无的因果关系。请参阅以下内容:

在此处输入图像描述

福利支出城市化的结果都具有统计上显着的 p 值,但福利支出的相关性要强得多。福利支出与其他宗教信仰指标(非宗教率以及宗教舒适度)之间存在如此密切的关系,而城市甚至没有达到 p 值< .10,这表明城市化不会影响一般的宗教信仰。但是请注意,即使是福利支出也不能解释爱尔兰或菲律宾,这表明其他一些影响比福利支出的影响要强

依赖“停止规则”会导致误报,尤其是在心理学样本量较小的情况下。心理学作为一个领域确实受到这些统计恶作剧的阻碍。然而,将我们所有的信念都放在一个任意的 p 值上也是非常愚蠢的。即使我们在进行实验之前都将我们的样本量和假设陈述发送到期刊,我们仍然会遇到误报,因为学术界正在集体寻找统计意义。

正确的做法不是停止数据挖掘,正确的做法是描述与其效果相关的结果对理论的判断不仅取决于其预测的准确性,还取决于这些预测的效用无论研究方法有多好,一种能将感冒症状改善 1% 的药物都不值得装入胶囊中。

更新要明确一点,我完全同意社会科学家应该被要求更高的标准:我们需要改善教育,为社会科学家提供更好的工具,并将显着性水平提高到 3-sigma。我试图强调一个代表性不足的观点:绝大多数心理学研究都是毫无价值的,因为效果太小了。

但是使用 Amazon Turk,我可以适当地补偿运行 10 次并行研究并非常便宜地保持 >3-sigma 置信水平。但是,如果效果强度很小,那么外部效度就会受到重大威胁。操纵的效果可能是由于新闻报道,或问题的顺序,或......

我没有时间写论文,但社会科学中的质量问题远远超出了蹩脚的统计方法。

你引用的文章没有提到停止规则,似乎与手头的问题无关。它们唯一的、非常轻微的关系是多重测试,这是一个统计概念,而不是科学概念。

在临床试验文献中,您会发现停止规则是严格的,其中包含有关研究“看起来”的条件的明确信息:基于日历年或人年登记,alpha 水平的设置,以及还限制了“有效”与“有害”治疗的效果。的确,我们应该将此类研究的严格执行视为科学做得好的一个例子FDA 甚至会说,在发现除预先指定的功效之外的重要功效后,必须进行第二次试验以验证这些发现。这仍然是一个非常重要的问题,以至于 Thomas Flemming 建议所有临床研究都需要通过由不同实体进行的完全独立的第二次确认试验进行验证。在考虑生命和医疗保健时,误报错误的问题是如此糟糕。

由于看似无害的监督,其他科学领域使研究中的不良道德长期存在。事实上,社会科学不会影响人们接受的治疗,它们处理的是摘要和概念模型,这些模型只会增强我们对理论和观察相互作用的理解。然而,社会科学的任何消费者,无论是外行还是科学,经常会遇到相互矛盾的发现:巧克力对你有好处,巧克力对你有害(巧克力对你有好处,顺便说一下,糖和脂肪巧克力对你有害),性对你有好处,婚姻让你悲伤/婚姻让你快乐。该领域因糟糕的科学而失职。即使我在分析中对我不满意的强烈因果语言感到内疚,这些语言随后与关于政策和联邦支持的强烈建议联系在一起,完全没有道理,但它被公布了。

西蒙斯的文章有效地描述了披露将如何有助于明确研究人员在社会研究中制造的各种“捷径”。Simmons 在表 1 中给出了一个示例,说明数据挖掘如何以不道德的科学家“寻找发现”的典型方式显着增加误报率。表 2 中的发现总结描述了文章中经常被忽略的方面,这些方面将有助于大大提高对如何进行不止一项分析的理解。

总而言之,停止规则只适用于预先指定的假设:这些在伦理上是合理的,并且需要统计方法。Simmons 的文章承认,许多研究甚至不承认这一点,而且它在伦理上是不合理的,但统计语言令人信服地说明了为什么它是错误的。