归根结底,我对统计学的了解越多,我就越不信任在我的领域发表的论文;我只是认为研究人员的统计数据做得不够好。
我是外行,可以这么说。我受过生物学培训,但没有受过正规的统计学或数学教育。我喜欢 R,并且经常努力阅读(并理解……)我在研究时应用的方法的一些理论基础。如果今天进行分析的大多数人实际上都没有经过正式培训,我不会感到惊讶。我发表了大约 20 篇原创论文,其中一些已被知名期刊接受,统计学家经常参与评审过程。我的分析通常包括生存分析、线性回归、逻辑回归、混合模型。从来没有审阅者询问过模型假设、拟合或评估。
因此,我从来没有真正过多地关心模型假设、拟合和评估。我从一个假设开始,执行回归,然后呈现结果。在某些情况下,我努力评估这些事情,但我总是以“好吧,它并没有满足所有假设,但我相信结果(“主题知识”)并且它们是合理的,所以这很好”和在咨询统计学家时,他们似乎总是同意。
现在,我与其他自己进行分析的统计学家和非统计学家(化学家、医生和生物学家)交谈过;似乎人们并不太关心所有这些假设和正式评估。但是在 CV 上,有很多人询问残差、模型拟合、评估方法、特征值、向量等等。让我这样说吧,当 lme4 警告大特征值时,我真的怀疑它的许多用户是否愿意解决这个问题......
值得付出额外的努力吗?是不是所有公布的结果中的大多数都不尊重这些假设,甚至可能没有评估它们?这可能是一个日益严重的问题,因为数据库每天都在变大,并且有一种观念认为数据越大,假设和评估就越不重要。
我可能完全错了,但这就是我的看法。
更新: 从 StasK 借来的引文(下): http: //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509