什么是常见的统计错误?

机器算法验证 谬论
2022-01-24 11:15:24

我是一名心理学研究生,随着我越来越多地从事统计学方面的独立研究,我越来越惊讶于我的正规培训不足。个人和二手经验都表明,在本科和研究生培训中缺乏严格的统计数据在心理学中相当普遍。因此,我认为对于像我这样的独立学习者来说,创建一个“统计罪”列表会很有用,将教授给研究生的统计实践作为标准实践制成表格,实际上这些实践要么被上级(更强大、更灵活、或健壮等)现代方法或被证明是坦率地无效。预计其他领域也可能会遇到类似的情况,我提出了一个社区 wiki,我们可以在其中收集跨学科的统计罪恶列表。

4个回答

未能查看(绘制)数据。

大多数对 p 值的解释都是有罪的!p 值的传统用法存在严重缺陷。在我看来,这一事实对教授假设检验和显着性检验的标准方法提出了质疑。

Haller 和 Krause 发现统计教师几乎和学生一样可能误解 p 值。(在他们的论文中进行测试,看看你是怎么做的。)史蒂夫·古德曼(Steve Goodman)提出了一个很好的理由来放弃对 p 值的传统(错误)使用以支持可能性。Hubbard 的论文也值得一看。

哈勒和克劳斯。对意义的误解:学生与老师分享的问题心理研究方法(2002 年)第一卷。7 (1) 页 1-20 ( PDF )

哈伯德和巴亚里。对经典统计测试中证据测量 (p's) 与错误 (α's) 的混淆美国统计学家(2003 年)卷。57 (3)

好人。迈向循证医学统计。1:P值谬误。Ann Intern Med (1999) 第一卷。130 (12) 页 995-1004 ( PDF )

另见:

Wagenmakers,EJ。p值普遍问题的实用解决方案。心理公报与评论,14(5),779-804。

对于一些明确的案例,由于实验者的选择,即使是名义上“正确”的 p 值解释也变得不正确。

更新(2016 年):2016 年,美国统计协会发表了关于 p 值的声明,请参见此处在某种程度上,这是对大约一年前心理学杂志发布的“禁止 p 值”的回应。

我在处理预测模型时遇到的最危险的陷阱是不要尽早保留测试数据集,以便将其专用于“最终”性能评估。

如果您有机会在调整参数、选择先验、选择学习算法停止标准时以某种方式使用测试数据,那么很容易高估模型的预测准确性......

为避免此问题,在开始处理新数据集之前,您应该将数据拆分为:

  • 开发集
  • 评估集

然后将您的开发集拆分为“训练开发集”和“测试开发集”,您可以使用训练开发集来训练具有不同参数的各种模型,并根据测试开发集的性能选择最佳模型。您还可以使用交叉验证进行网格搜索,但仅限于开发集。切勿在模型选择未 100% 完成时使用评估集。

一旦您对模型选择和参数有信心,请对评估集执行 10 折交叉验证,以了解所选模型的“真实”预测准确性。

此外,如果您的数据是时间性的,最好选择时间码上的开发/评估拆分:“很难做出预测——尤其是关于未来。”

在进行数据挖掘(假设发现)而不是统计数据(假设检验)时报告 p 值。