统计学中最糟糕的(普遍采用的)思想/原则是什么?

机器算法验证 推理 教学 哲学的
2022-01-23 03:40:14

在我的统计教学中,我遇到了一些与统计相关的顽固想法/原则,这些想法/原则已经流行起来,但在我看来却具有误导性,或者在某些情况下完全没有价值。我想在这个论坛上征求其他人的意见,看看统计分析/推理中最糟糕的(普遍采用的)想法/原则是什么。我最感兴趣的不仅仅是新手错误的想法;即,一些实际的统计学家/数据分析师接受和实践的想法。为了让对这些问题进行有效投票,请每个答案只给出一个不好的原则,但请随意给出多个答案。

4个回答

我将介绍一个新手错误(在此答案中),也许还有一个由经验丰富的人犯下的错误。

很多时候,即使在这个网站上,我也看到人们感叹他们的数据不是正态分布的,所以 t 检验或线性回归是不可能的。更奇怪的是,我会看到人们试图合理化他们对线性回归的选择,因为他们的协变量是正态分布的

我不必告诉你回归假设是关于条件分布的,而不是边际的。我最喜欢的证明这种思维缺陷的方法是基本上用线性回归计算 t 检验,就像我在这里所做的那样

事后功率分析

也就是说,在研究完成后而不是之前使用功效分析,特别是插入观察到的效应量估计、样本量等。

有些人直觉认为事后功效分析可能会提供信息,因为它可以帮助解释为什么他们获得了不显着的结果。具体来说,他们认为也许他们未能取得显着结果并不意味着他们的理论是错误的......相反,也许只是该研究没有足够大的样本量或足够有效的设计来检测效果。那么事后功率分析应该表明低功率,我们可以将其归咎于低功率,对吗?

问题是事后功率分析实际上并没有添加任何新信息。这是您已经计算的 p 值的简单转换。如果你得到一个不显着的结果,那么数学上的必然结果就是事后的能力会很低。反之,当且仅当观察到的 p 值较小时,事后功效较高。因此,事后权力不可能为上述有希望的推理提供任何支持。

这是思考这些事后权力 (PHP) 练习的概念问题的另一种方法——以下段落来自Russ Lenth 的这篇论文:

在此处输入图像描述

请注意,这里的问题不是在研究本身完成后运行功率分析的时间顺序问题——通过改变一些观察到的结果,可以以一种信息丰富且合理的方式运行事后功率分析统计数据,例如估计如果您以不同的方式进行研究会发生什么。这篇文章中定义的“事后功率分析”的关键问题在于简单地插入所有进行功率分析时观察到的统计数据。在大多数情况下,有人这样做,他们试图解决的问题可以通过围绕他们观察到的效应大小估计计算某种置信区间来更好地解决。也就是说,如果有人想争辩说他们未能拒绝零值的原因不是因为他们的理论是错误的,而仅仅是因为设计是高度次优的,那么提出这个论点的一种更合理的统计方法是计算置信度他们观察到的估计值的区间,并指出虽然它确实包括 0,但它也包括大的效应大小值——基本上,这个区间太宽,无法得出关于真实效应大小的非常大的结论,因此不是一个非常强烈的否定。

去除异常值

似乎许多人认为他们不仅可以,而且应该忽略与平均值相差若干标准差的数据点。即使没有理由怀疑观察结果无效,或者没有任何有意识的理由来识别/删除异常值,这种策略通常也被认为是数据预处理的主要内容。

因为某事在统计上不显着,所以它不有趣并且应该被忽略的想法。