在一个经常由外行进行分析的时代,我们是否夸大了模型假设和评估的重要性

机器算法验证 数理统计 多重回归 造型
2022-02-02 06:25:24

归根结底,我对统计学的了解越多,我就越不信任在我的领域发表的论文;我只是认为研究人员的统计数据做得不够好。


我是外行,可以这么说。我受过生物学培训,但没有受过正规的统计学或数学教育。我喜欢 R,并且经常努力阅读(并理解……)我在研究时应用的方法的一些理论基础。如果今天进行分析的大多数人实际上都没有经过正式培训,我不会感到惊讶。我发表了大约 20 篇原创论文,其中一些已被知名期刊接受,统计学家经常参与评审过程。我的分析通常包括生存分析、线性回归、逻辑回归、混合模型。从来没有审阅者询问过模型假设、拟合或评估。

因此,我从来没有真正过多地关心模型假设、拟合和评估。我从一个假设开始,执行回归,然后呈现结果。在某些情况下,我努力评估这些事情,但我总是以“好吧,它并没有满足所有假设,但我相信结果(“主题知识”)并且它们是合理的,所以这很好”和在咨询统计学家时,他们似乎总是同意。

现在,我与其他自己进行分析的统计学家和非统计学家(化学家、医生和生物学家)交谈过;似乎人们并不太关心所有这些假设和正式评估。但是在 CV 上,有很多人询问残差、模型拟合、评估方法、特征值、向量等等。让我这样说吧,当 lme4 警告大特征值时,我真的怀疑它的许多用户是否愿意解决这个问题......

值得付出额外的努力吗?是不是所有公布的结果中的大多数都不尊重这些假设,甚至可能没有评估它们?这可能是一个日益严重的问题,因为数据库每天都在变大,并且有一种观念认为数据越大,假设和评估就越不重要。

我可能完全错了,但这就是我的看法。

更新: 从 StasK 借来的引文(下): http: //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

4个回答

嗯,是的,假设很重要——如果它们根本不重要,我们就不需要做它们,不是吗?

问题是它们有多重要——这因程序和假设以及你想要对你的结果声称的内容而异(以及你的听众对这种声称的近似——甚至不准确——有多大的容忍度)。

因此,对于假设至关重要的情况的示例,请考虑方差 F 检验中的正态性假设;即使是相当适度的分布变化也可能对过程的属性(实际显着性水平和功效)产生相当大的影响。如果你声称你在 5% 的水平上进行测试,而实际上它是在 28% 的水平上,那么从某种意义上说,你所做的与对你进行实验的方式撒谎是一样的。如果您认为此类统计问题不重要,请提出不依赖它们的论点。另一方面,如果您想使用统计信息作为支持,则不能歪曲该支持。

在其他情况下,特定假设可能不那么重要。如果您在线性回归中估计系数并且您不关心它是否具有统计显着性并且您不关心效率,那么,同方差假设是否成立并不一定重要。但是,如果您想说它具有统计显着性或显示置信区间,是的,这当然很重要。

我接受过统计学家的培训,而不是生物学家或医生。但是我做了很多医学研究(与生物学家和医生一起工作),作为我研究的一部分,我学到了很多关于治疗几种不同疾病的知识。这是否意味着如果朋友问我关于我研究过的疾病,我可以给他们开一个我知道通常用于该特定疾病的药物的处方?如果我这样做(我不这样做),那么在许多情况下它可能会成功(因为医生只会开相同的药物),但他们总是有可能过敏/药物医生会知道的互动/其他问题,我不知道,最终造成的弊大于利。

如果您在不了解您的假设和可能出错的情况下进行统计(或者在寻找这些事情的过程中咨询统计学家),那么您就是在实践统计舞弊行为。大多数情况下它可能没问题,但是在一个重要假设不成立但你忽略它的情况下呢?

我与一些具有相当统计能力并且可以自己进行大部分分析的医生一起工作,但他们仍然会从我身边跑过去。我经常确认他们做了正确的事情并且他们可以自己进行分析(他们通常会感谢确认)但有时他们会做一些更复杂的事情,当我提到更好的方法时,他们通常会放弃分析对我或我的团队来说,或者至少让我担任更积极的角色。

所以我对你的标题问题的回答是“不”,我们并没有夸大其词,而是我们应该更多地强调一些事情,以便外行更有可能至少与统计学家仔细检查他们的程序/结果。

编辑

这是基于亚当下面的评论的补充(另一条评论会有点长)。

亚当,谢谢你的评论。简短的回答是“我不知道”。我认为在提高文章的统计质量方面正在取得进展,但是事情在许多不同的方面发展得如此之快,以至于需要一段时间才能赶上并保证质量。部分解决方案侧重于介绍统计课程中违规的假设和后果。当课程由统计学家教授时,这更有可能发生,但需要在所有课程中发生。

有些期刊做得更好,但我希望看到特定的统计学家审稿人成为标准。几年前有一篇文章(对不起,手边没有参考文献,但它在 JAMA 或新英格兰医学杂志上)显示被发表的可能性更高(虽然没有应该的那么大的差异be) 在 JAMA 或 NEJM 中,如果生物统计学家或流行病学家是合著者之一。

最近发表的一篇有趣的文章是:http ://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 ,其中讨论了一些相同的问题。

虽然 Glen_b 给出了一个很好的答案,但我想为此加几分钱。

一个考虑因素是你是否真的想获得科学真理,这需要完善你的结果并弄清楚你的方法是否站得住脚的所有细节,而不是发表在“啊,好吧,无论如何都没有人在我的学科中检查这些特征值”模式。换句话说,你必须问问你内心的职业良知,你是否做得最好。提及您所在学科的低统计素养和松散的统计实践并不能成为令人信服的论据。如果审稿人来自同一学科,标准松懈,他们通常最多只能帮到一半,尽管一些顶级机构有明确的举措,将统计专业知识带入审稿过程。

但即使你是一个愤世嫉俗的“发表或灭亡”的意大利腊肠切片机,另一个考虑因素基本上是你研究声誉的安全性。如果您的模型失败了,而您却不知道,那么您将面临被那些可以用更精致的仪器将斧头砍入模型检查裂缝的人反驳的风险。诚然,这种可能性似乎很低,因为科学界尽管名义上对声誉和可重复性提出了哲学要求,但很少尝试复制他人的研究。(我参与写了几篇论文,基本上都是这样开头的,“哦,天哪,他们真的写那个?”,并对经过同行评审的已发表的半统计方法进行了批评和改进。)然而,统计分析的失败,当暴露出来时,往往会引起大而令人不快的飞溅。

违反假设的性质可能是未来研究的重要线索。例如,违反 Cox 生存分析中的比例风险假设可能是由于一个变量对短期生存影响很大,但对长期生存影响不大。通过在统计测试中检查假设的有效性,您可以获得意想不到但可能很重要的信息。

所以你自己做,而不仅仅是文献,如果你不测试潜在的假设,这可能会造成伤害。随着高质量期刊开始需要更复杂的统计审查,您会发现自己更频繁地被要求这样做。您不希望处于统计审稿人要求的测试破坏了您认为是论文关键点的位置。