最令人困惑的统计术语

机器算法验证 术语 沟通
2022-02-01 07:33:14

我们统计学家使用许多词的方式与其他人使用它们的方式略有不同。当我们教导或解释我们在做什么时,这会导致很多问题。我将开始一个列表(现在我将根据评论添加一些定义):

  • 功效是在数据来自特定替代假设或替代范围的假设情况下正确拒绝错误零假设的概率。通常,这意味着如果“正在发生某事”,“我们的统计方法应该会成功”。
  • 偏差 - 如果统计量与与之相关的总体参数系统地不同,则该统计量是有偏差的。
  • 显着性 - 在以下情况下,结果在某个百分比(通常为 5%)具有统计显着性:如果样本来自的总体的真实效应为 0,则只会出现至少与从样本中获得的统计数据一样极端的统计数据5%的时间。
  • 相互作用 - 如果因变量和一个自变量之间的关系在另一个自变量的不同水平上不同,则两个自变量相互作用

但必须有很多其他人!

4个回答

“显着”是我遇到的最大的一个,因为它既具有常见的英语使用含义又会在研究结果的讨论中突然出现。我什至发现自己在我谈到统计结果的同一句话中混合了“重要”来表示重要。

那就是疯狂。

我建议将线性添加到列表中。

我在 math.SE 上问了一个问题 ,作为一名工程师,我认为 的值的的线性 最小均方误差估计(意味着 估计为选择以最小化 ),并给出部分答案。关于这个问题的评论之一说YXYY^=aX+babE[(YaXb)2]

“我对你的语言有点不舒服,因为我担心这种使用“线性”这个词的方式可能会导致流行的误解,即线性回归之所以称为线性回归,是因为它拟合了一条线。那些认为然后当统计学家坚持认为当拟合抛物线或正弦波等时进行线性回归时,就会感到困惑。”

那么,线性回归对统计学家意味着什么

“信心”

很难说服非统计学家相信他们的置信区间不是(直接)关于不同参数值可信度的陈述。

为了对这个术语的技术含义有信心,我们需要想象一组重复的实验,每个实验都以某种预先指定的方式计算一个区间。要成为 95% 的置信区间,95% 的公式使用将捕获相关的相关参数。

但非统计学家通常仅根据一个实验将“95% 置信度”解释为关于合理参数值的陈述。通常,他们假设区间覆盖了关于参数的一些后验信念的 95%,即“我们非常确定参数在之间”。这反而定义了一个可信的区间。ab

(当然,在某些情况下,这两个概念大致或完全一致。但一般情况下,它们并不一致,而且数值一致并不能消除技术术语滥用的问题。)

可能性

在我看来,与解释假设检验和置信区间相关的大多数问题都源于当程序基于常客时对“概率”的贝叶斯定义的应用。例如,p 值是原假设为真的概率,当 AFAICS 没有概率与频率论设置中特定假设的真实性相关联时。