较小的数据集更好:这个陈述在统计中是错误的吗?如何正确反驳?

机器算法验证 统计学意义 样本量
2022-02-09 09:11:10

推广羟氯喹的 Raoult 博士对生物医学领域的统计数据发表了一些非常有趣的声明:

这是违反直觉的,但临床测试的样本量越小,其结果就越显着。20 人样本中的差异可能比 10,000 人样本中的差异更大。如果我们需要这样的样本,就有出错的风险。有 10,000 人,当差异很小时,有时它们不存在。

这是统计中的错误陈述吗?如果是这样,那么在生物医学领域是否也是错误的?我们可以在什么基础上通过置信区间正确地反驳它?

多亏了一篇关于 24 名患者数据的文章,Raoult 博士推广了羟氯喹作为 Covid-19 的治疗方法。他的说法被重复了很多次,但主要是在主流媒体上,而不是在科学媒体上。

在机器学习中,SciKit 工作流程指出,在选择任何模型之前,您需要一个包含至少 50 个样本的数据集,无论是用于简单回归,还是最先进的聚类技术等,这就是为什么我觉得这句话真的耐人寻味。


编辑:下面的一些答案假设没有结果偏差。他们处理权力和影响大小的概念。然而,Raoult 博士的数据似乎存在偏差。最引人注目的是删除死者的数据,因为他们无法提供整个研究期间的数据。

然而,我的问题仍然集中在使用小样本量的影响上。

4个回答

我同意这里的许多其他答案,但认为这种说法比他们想象的还要糟糕。

该声明是对小型数据集的许多伪劣分析中隐含声明的显式版本。这些暗示由于他们在小样本中发现了显着结果,因此他们声称的结果必须是真实且重要的,因为在小样本中“更难”找到显着效果。这种信念是完全错误的,因为小样本中的随机误差意味着任何结果的可信度都较低,无论效果大小是大还是小。因此,大而显着的影响更可能是不正确的大小,更重要的是,它们的方向可能是错误的。Andrew Gelman 将这些有用地称为“S 型”错误(估计其符号错误)而不是“M 型”错误(估计其大小是错的)。将此与文件抽屉效应(小的、不重要的结果未发布,而大的、重要的结果已发布)结合起来,您将大部分时间陷入复制危机,并浪费大量时间、精力和金钱。

感谢@Adrian 下面从 Gelman 那里挖掘出一个很好地说明了这一点的数字:

在此处输入图像描述

这似乎是一个极端的例子,但这一点与拉乌尔的论点完全相关。

“这是违反直觉的,但临床测试的样本量越小,其结果就越显着。20 人样本中的差异可能比 10,000 人样本中的差异更显着。如果我们需要这样的样本,有有犯错的风险。有 10,000 人,当差异很小时,有时它们不存在。

我已经阅读了引用此报价的链接文章(通过谷歌翻译)。不幸的是,它并没有进一步说明 Raoult 教授的意思。就其本身而言,这种说法对我来说毫无意义。这是一堆不清楚的参考资料和无效的推理,它表现出对统计推理目标和假设检验机制的根本误解。抽样的目的不是试图欺骗显着性检验;它是对未知参数或假设做出最准确的推断,这是通过获取尽可能多的数据来完成的。

至于说样本量越小往往“更显着”,那是错误的。假设您正在处理连续数据,并且您的测试假设是正确的,那么无论样本量如何,假设检验的 p 值在原假设下都应该是一致的--- 即 p 值的公式考虑了样本量,因此较小的样本没有“更显着”的趋势。如果有这样的趋势,这将被认为是测试程序的失败,而不是为了“欺骗”假设测试而试图利用的东西。

Raoult 教授指出,我们可能“需要这样一个样本”(即具有显着差异的样本),不幸的是,这表明测试方法的目标是最大限度地提高得出预先设想的理想结论的机会。这是我偶尔从应用研究人员那里听到的那种话,他们过于投入试图证明他们的某些假设,这让我感到畏缩——如果统计测试的目标仅仅是确认一个预先设想的结论,那么我们不妨完全抛弃统计数据。

现在,拉乌尔教授可能有一个完全不同的观点,他只是在混搭他的统计词并说错话。(最后一句话和写的很矛盾,所以他显然有别的意思但我不知道是什么。)我以前听过没有受过理论统计学训练的应用研究人员对统计现象的描述时,已经看到过很多次这种情况。 . 在这种情况下,我会忽略这句话,因为它要么是完全错误的,要么是试图说出完全不同的东西的失败尝试。无论哪种情况,您的怀疑都是正确的——数据越少越好

(我认为措辞是故意挑衅的。)

如果您有 10 个观察值并且想要表明它们的平均值不为零,那么如果您想要有任何机会(能力)来检测差异,那么它必须与 0 有很大不同。

如果你有一万亿个观测值并且想要证明它们的平均值不为 0,那么平均值可能与零有一点点不同,也许只有 0.01,你仍然有很大的机会检测到这种差异。是的,我们都同意00.01,但平均值为 0.01 而不是 0 的实际意义可能无关紧要:没人关心。

但是,如果您在该 10 个样本中检测到差异,则与零的差异可能非常大,可能进入具有实际意义的领域。这句话是关于实际意义的。

功率计算以及指导什么是有趣的差异(“效果大小”)的主题专业知识使这一点正式化。

编辑

承诺的功率计算,结果是效果大小计算。

library(pwr)
n1 <- 100
n2 <- 100000
alpha = 0.05
power = 0.8

# find the effect size, d, for n=100
#
pwr.t.test(n1, sig.level=alpha, power=power)$d # this is 0.3981407

# find the effect size, d, for n=100,000
#
pwr.t.test(n2, sig.level=alpha, power=power)$d # this is 0.01252399

在此示例中,仅对 100 名受试者的测试能够检测到平均值的差异0.398 80%的时间。对 100,000 名受试者的测试能够检测到0.013 80%的时间。如果您需要至少相差0.15为了使研究结果有趣,每次看到观察到0.013. 但是,如果 100 名受试者的测试被拒绝,您可以更有信心相信效应量大到足以引起人们的兴趣。

(该差异是该组总体的标准差数。

你能确认它是统计中的 FALSE 语句吗

我认为该声明措辞不佳。在这种情况下,“显着”一词似乎带有“重要”的味道。由于在小数据集中检测到的差异,在较小的数据集中检测到的差异并没有以某种方式更重要或更有意义。相反,与数据中的固有噪声相比,在小数据集中检测到的差异通常是非常大的(假设差异不是误报或某种偏差的结果),这解释了为什么我们首先检测到它们。“显着”一词在统计数据中被过度使用,这常常导致混淆和误用。

我不会由此得出结论,较小的数据集更好。事实上,大数据(或者更恰当地说,足够的数据)比小数据更好,因为我可以以足够的精度估计我想要的东西。同样值得注意的是,在医学研究中,还有比样本量重要得多的事情。因此,降压并不止于说您发现了很大的差异。

现在,我无法确定 Raoul 博士关于:羟氯喹的陈述是否准确。但是,如果他的意图是争辩在小组中发现的差异很大(再次假设差异不是误报或偏见的结果),那么我可以支持这一点。