我阅读了很多进化/生态学的学术论文,有时是为了了解统计数据在教科书之外的“现实世界”中是如何被使用的。我通常把论文中的统计数据当作福音,并用这些论文来帮助我学习统计数据。毕竟,如果一篇论文花了数年时间写成并经过严格的同行评审,那么统计数据肯定会坚如磐石吗?但在过去的几天里,我对我的假设提出了质疑,想知道学术论文中发表的统计分析有多少是值得怀疑的?特别是,生态学和进化论等领域的人可能会花更少的时间学习统计数据,而花更多的时间学习他们的领域。
人们多久在学术论文中发现可疑的统计数据?
我阅读了很多进化/生态学的学术论文,有时是为了了解统计数据在教科书之外的“现实世界”中是如何被使用的。我通常把论文中的统计数据当作福音,并用这些论文来帮助我学习统计数据。毕竟,如果一篇论文花了数年时间写成并经过严格的同行评审,那么统计数据肯定会坚如磐石吗?但在过去的几天里,我对我的假设提出了质疑,想知道学术论文中发表的统计分析有多少是值得怀疑的?特别是,生态学和进化论等领域的人可能会花更少的时间学习统计数据,而花更多的时间学习他们的领域。
人们多久在学术论文中发现可疑的统计数据?
毕竟,如果一篇论文花了数年时间写成并经过严格的同行评审,那么统计数据肯定会坚如磐石吗?
我阅读尝试将统计学应用于各个领域(政治学、经济学、心理学、医学、生物学、金融学、精算学、会计学、光学、天文学等)的论文的经验是,统计分析可能在范围内的任何地方,从出色和出色到令人震惊的胡说八道。我在我提到的每一个领域都看到了很好的分析,而几乎所有领域的分析都做得很差。
有些期刊一般都不错,有些更像是蒙着眼睛玩飞镖——你可能会让它们中的大多数离目标不太远,但墙上、地板和天花板上都会有一些。也许还有猫。
我不打算点名任何罪魁祸首,但我会说我看到学术生涯建立在错误使用统计数据的基础上(即十多年来,同样的错误和误解在一篇又一篇论文中重复出现)。
所以我的建议是让读者当心;不要相信编辑和同行评审员知道他们在做什么。随着时间的推移,您可能会很好地了解通常可以依赖哪些作者不会做任何太令人震惊的事情,哪些作者应该特别谨慎对待。您可能会感觉到某些期刊的统计数据通常具有很高的标准。
但即使是典型的优秀作者也可能犯错误,或者审稿人和编辑可能无法发现他们通常会发现的错误;一本典型的好期刊可以发表咆哮。
[有时,您甚至会看到非常糟糕的论文获得了奖项或奖项……这也不能说明评奖人的素质。]
我不想猜测我可能看到的“坏”统计数据的比例是多少(以各种形式,在从定义问题、研究设计、数据收集、数据管理的每个阶段......一直到分析和结论),但它还不足以让我感到舒服。
我可以举一些例子,但我认为这不是这样做的正确论坛。(实际上,如果有一个好的论坛会很好,但话又说回来,它可能很快就会变得高度“政治化”,并且很快就无法达到其目的。)
我花了一些时间在 PLOS ONE 中搜索……再说一次,我不会指出具体的论文。我注意到了一些事情:看起来很大一部分论文都有统计数据,可能超过一半有假设检验。主要的危险似乎是大量的测试,或者每个测试都有 0.05 的高(只要我们明白很多非常微小的影响可能会偶然显示为显着,这不会自动成为问题),或者令人难以置信的个体显着性水平低,这往往会导致低功效。我还看到了一些案例,其中大约有六种不同的测试显然适用于解决完全相同的问题。这让我觉得这是一个普遍的坏主意。总的来说,几十篇论文的标准都很好,但过去我在那里看到过一篇绝对糟糕的论文。
[也许我可以间接地沉迷于一个例子。这个问题问的是一个人在做一件非常可疑的事情。这远不是我见过的最糟糕的事情。]
另一方面,我也看到(甚至更频繁地)人们被迫跳过各种不必要的障碍以使他们的分析被接受的情况;完全合理的事情不会被接受,因为根据审稿人、编辑或主管的说法,或者只是在特定领域的潜意识文化中,存在一种“正确”的做事方式。
我尊重@Glen_b 在正确回答方式上的立场(当然也不打算减损它),但我不能完全拒绝指出一个离我家很近的特别有趣的例子。冒着将事情政治化和对这个问题的目的造成伤害的风险,我推荐Wagenmakers、Wetzels、Boorsboom 和 Van Der Maas (2011)。我在 Cognitive Sciences beta SE 上的一篇相关文章中引用了这一点(认知科学如何解释接受者的远距离意向和大脑功能?),该文章考虑了“飞镖击中猫”的另一个例子。Wagenmakers 及其同事的文章直接评论了一个真正的“咆哮者”:它发表在 JPSP(最大的心理学期刊之一)) 几年前。他们还更普遍地支持贝叶斯分析,并且认为:
为了说服持怀疑态度的观众接受有争议的主张,需要进行严格的验证性研究,并使用保守而非自由的统计测试来分析结果。
我可能不需要告诉你,这并不完全是对合唱团的讲道。FWIW,也有反驳(贝叶斯主义者和常客之间似乎总是存在反驳;(Bem, Utts, & Johnson, 2011),但我觉得它并没有完全解决辩论。
心理学作为一个科学界最近一直在复制,部分原因是这个和其他引人注目的方法论缺陷。这里的其他评论指出了类似于社会神经科学中曾经被称为巫毒相关性的案例(顺便说一句,政治不正确的情况如何?论文已重新命名;Vul、Harris、Winkielman 和 Pashler,2009 年)。这也引起了它的反驳,您可以查看更多关于备受争议的做法的辩论。
为了以(更非人格化的)(伪)统计学家行为不端为代价获得更多寓教于乐,请参阅我们目前在 CV 上排名第 8 的问题以及另一个(诚然)政治不正确的标题,“什么是常见的统计罪? ”它的 OP @MikeLawrence 将他的灵感归功于他对心理学和统计学的平行研究。这是我个人的最爱之一,它的答案对于自己避免无数陷阱非常有用。
就个人而言,我过去五个月的大部分时间都在这里度过,主要是因为在某些数据分析问题上获得坚如磐石的统计数据非常困难。坦率地说,同行评审通常根本不是很严格,特别是在对具有复杂问题和大量认知并发症的年轻科学的研究进行统计审查方面。因此,我觉得有必要承担个人责任,在自己的工作中完善方法。
在展示我的论文研究时,我意识到个人对统计审查的责任是多么重要。我母校的两位杰出的心理学家插话说,我在解释相关性时犯了最基本的罪过之一。我认为自己超越了它,并且已经多次向本科生讲授过它,但我仍然去了那里,并被召唤(早期,谢天谢地)。我去那里是因为我正在审查和复制的研究去了那里!因此,我最终在我的论文中添加了几个部分这要求其他研究人员从准实验纵向研究(有时甚至从横截面相关性)中假设因果关系并过早地忽略替代解释。
我的论文未经我的委员会修改就被接受了,其中包括另一位杰出的心理测量学家和即将成为 SPSP(出版 JPSP)的总裁,但坦率地说,我并不是在吹嘘。尽管通过了非常优秀的审稿人的外部审查过程,但我还是设法在自己的方法中戳了几个兔子洞。我现在已经陷入了统计数据的深渊,试图用更适合于李克特评级预测建模的方法,如 SEM、IRT 和非参数分析(参见降维后的回归测试))。我自愿选择在一篇论文上花费数年时间,而我可能只是按原样发表……我想我什至还有一项模拟研究要做,然后才能认真进行。
然而,我强调这是可选的——在职业生涯早期工作记录中通常强调数量而不是质量的文化中,这甚至可能是过分热心和昂贵的奢侈品。将连续数据的参数模型错误应用到违反假设的序数数据分布在我的领域中非常普遍,对统计显着性的误解和歪曲也是如此(请参阅容纳 p 值的根深蒂固的观点)。我可以完全摆脱它(在短期内)......而且做得更好也不是那么难。我想我最近几年在 R 程序方面取得了惊人的进步,但要感谢这一点!希望时代在变。
参考资料
· Bem, DJ, Utts, J., & Johnson, WO (2011)。心理学家必须改变他们分析数据的方式吗?人格与社会心理学杂志,101(4),716-719。取自http://deanradin.com/evidence/Bem2011.pdf。
· Vul, E.、Harris, C.、Winkielman, P. 和 Pashler, H. (2009)。情绪、人格和社会认知的 fMRI 研究中令人费解的高度相关性。心理科学观点,4 (3), 274–290。取自http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf。
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., & Van der Maas, H. (2011)。为什么心理学家必须改变他们分析数据的方式:以 psi 为例。人格与社会心理学杂志,100,426-432。取自http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf。
我记得在大学里,一些最后一年的社会科学专业学生在不同的场合(其中一个获得了第一名)问如何为他们的项目计算出一个平均值,这个项目有一些数据点。(所以他们在使用软件方面没有问题,只是知道如何用计算器计算数学。)
当我问他们想要什么类型的平均值时,他们只是茫然地看着我。
然而,他们都觉得有必要在他们的报告中加入一些统计数据,因为这是已经完成的事情——我希望他们都阅读了 101 篇有统计数据的论文,而没有考虑统计数据的含义。
很明显,教他们 3 年的研究人员并不关心统计数据的正确性,以至于无法将任何理解提炼给学生。
(当时我是一名计算机科学专业的学生。我将其发布为答案,因为评论有点长。)
作为一个非常不完整的列表,我发现统计数据在 1) 物理论文中最常见,其次是 2) 统计论文,而在 3) 医学论文中最糟糕。其原因很简单,并且与每个领域对原型模型的要求的完整性有关。
在物理论文中,方程和应用统计必须注意平衡单位,并有最频繁出现的因果关系,并根据物理标准进行测试。
在统计学中,1)单位和因果关系有时会被忽略,假设有时是启发式的,物理测试经常被忽略,但相等(或不等式),即逻辑通常沿归纳路径保留,后者无法纠正非物理假设。
在医学中,通常会忽略单位,方程式和假设通常是启发式的,通常未经测试且经常是虚假的。
自然地,像统计力学这样的领域比经济学更有可能有可检验的假设,而且,这并不能反映这些领域潜在作者的才能。它更多地与正在做的事情中有多少实际上是可测试的,以及每个领域历史上已经完成了多少测试有关。