为什么类型 1 和类型 2 错误的可接受概率通常不同?

机器算法验证 规模效应 统计能力
2022-03-08 17:44:28

这个问题是我的上司提的,我不知道怎么解释。

通常接受的置信水平是 0.95,这意味着 1 类错误的概率是 5%。但通常接受的功效是 0.8 (Cohen, 1988),这意味着 2 类错误的概率是 20%。为什么我们可以接受比类型 1 错误更高的类型 2 错误的概率?这背后有什么统计原因吗?

他还问了power = 0.8的物理含义(为什么选择它作为标准),我也不知道解释它。

而当我们使用功效分析来设计实验时,我们可能会选择有效尺寸 0.3、0.5 或 0.8 来代表小、中、大效果。我的主管问为什么选择这些数字。我的理解是这些数字是根据经验建议的。他马上问我是什么体验。对于这样的问题,我真的很沮丧。我的专业不是统计学,我需要花很多时间在这样的问题上,我认为这可能没有意义。有人可以建议这些问题是否真的有意义吗?如果是,我该如何找到答案。

1个回答

5% 的第一类错误率和 80% 的功率数字都不是通用的。例如,粒子物理学家倾向于使用“5 sigma”标准,该标准对应于大约百万分之一的名义 I 类错误率。事实上,我怀疑你的普通物理学家甚至听说过科恩。

但是,您引用的两种错误率应该不同的一个原因是两种错误类型的成本不一样。

至于为什么第一类错误率经常取为 5%,这里讨论部分原因(约定的一些历史背景)