推广羟氯喹的 Raoult 博士对生物医学领域的统计数据发表了一些非常有趣的声明:
这是违反直觉的,但临床测试的样本量越小,其结果就越显着。20 人样本中的差异可能比 10,000 人样本中的差异更大。如果我们需要这样的样本,就有出错的风险。有 10,000 人,当差异很小时,有时它们不存在。
这是统计中的错误陈述吗?如果是这样,那么在生物医学领域是否也是错误的?我们可以在什么基础上通过置信区间正确地反驳它?
多亏了一篇关于 24 名患者数据的文章,Raoult 博士推广了羟氯喹作为 Covid-19 的治疗方法。他的说法被重复了很多次,但主要是在主流媒体上,而不是在科学媒体上。
在机器学习中,SciKit 工作流程指出,在选择任何模型之前,您需要一个包含至少 50 个样本的数据集,无论是用于简单回归,还是最先进的聚类技术等,这就是为什么我觉得这句话真的耐人寻味。
编辑:下面的一些答案假设没有结果偏差。他们处理权力和影响大小的概念。然而,Raoult 博士的数据似乎存在偏差。最引人注目的是删除死者的数据,因为他们无法提供整个研究期间的数据。
然而,我的问题仍然集中在使用小样本量的影响上。