如果不了解您的分布和效应大小,您就无法制定停止规则——您不知道先验。
同样,是的,我们需要关注效应大小——只考虑 p 值从未被认为是正确的,我们当然不应该显示显示 p 值或 F 值而不是效应大小的表格或图表。
传统的统计假设推理测试存在问题(科恩说它配得上它的首字母缩写词,如果费舍尔和皮尔森今天看到以他们强烈反对的名字所做的一切,他们都会在坟墓中翻身)。
要确定 N,您需要已经确定目标显着性和功效阈值,以及对分布做出大量假设,特别是您还需要确定要建立的效应大小。Indolering 是完全正确的,这应该是起点——多大的最小效应量才是具有成本效益的!
“新统计”提倡显示效果大小(在适当的情况下作为配对差异),以及相关的标准差或方差(因为我们需要了解分布),以及标准差或置信区间(但后者已经锁定 p 值并决定您是预测方向还是单向投注)。但是用科学的预测设置指定符号的最小效果,这很清楚——尽管科学前的默认设置是反复试验,只是寻找差异。但是,如果您这样做,您再次对正常性做出了假设。
另一种方法是使用箱线图作为非参数方法,但是关于胡须和异常值的约定差异很大,即使这样它们本身也源于分布假设。
停止问题确实不是单个研究人员设置或不设置 N 的问题,而是我们拥有一个由数千名研究人员组成的整个社区,其中 1000 远远超过传统 0.05 水平的 1/alpha。目前提出的答案是提供汇总统计数据(均值、标准差、标准差 - 或相应的“非参数版本 - 中位数等,如箱线图)以促进荟萃分析,并提供所有实验的综合结果(无论它们是否发生)是否达到了特定的阿尔法水平。
与之密切相关的是多重测试问题,它同样充满困难,并且以保持功率的名义使实验过于简单化,同时提出了过于复杂的方法来分析结果。
我认为还没有一个教科书章节明确地处理这个问题,因为我们仍然不知道我们在做什么......
目前,最好的方法可能是继续使用最适合问题的传统统计数据,结合显示汇总统计数据——效果和标准误差,N 是最重要的。置信区间的使用基本上等同于相应的 T 检验,但允许将新结果与已发表的结果进行更有意义的比较,并允许鼓励可重复性和发表重复实验和荟萃分析的精神。
在信息论或贝叶斯方法方面,他们使用不同的工具并做出不同的假设,但仍然没有所有的答案,最终面临同样的问题,或者更糟糕的问题,因为贝叶斯推理从做出明确的决定后退一步回答并仅引用相对假设或不存在的先验证据。
机器学习最终也有需要考虑其重要性的结果——通常使用 CI 或 T 检验,通常使用图表,希望配对而不是仅仅比较,并在分布不匹配时使用适当补偿的版本。它还存在关于引导和交叉验证以及偏差和方差的争议。最糟糕的是,它具有生成和测试无数替代模型的倾向,只需在众多工具箱之一中彻底参数化所有算法,并将其应用于经过深思熟虑存档的数据集,以允许肆无忌惮的多次测试。最糟糕的是,它仍然处于使用准确性或更糟糕的 F 度量进行评估的黑暗时代——而不是机会正确的方法。
我已经阅读了几十篇关于这些问题的论文,但没有找到任何完全令人信服的东西——除了负面调查或荟萃分析论文,这些论文似乎表明大多数研究人员没有根据任何“标准”正确处理和解释统计数据”,旧的或新的。功率、多重测试、大小调整和提前停止、标准误差和置信区间的解释……这些只是其中的一些问题。
请把我击倒——我想被证明是错的!在我看来有很多洗澡水,但我们还没有找到婴儿!在这个阶段,没有任何一种极端观点或名牌方法看起来很有希望成为答案,而那些想要抛弃其他一切的人可能已经失去了孩子。