这是p值问题的解决方案吗?

机器算法验证 假设检验 统计学意义 p 值
2022-02-10 01:51:01

2016 年 2 月,美国统计协会发布了一份关于统计显着性和 p 值的正式声明。我们关于它的主题广泛讨论了这些问题。然而,到目前为止,还没有权威机构提供一种普遍认可的有效替代方案。美国统计学会 (ASS) 发表了回应,p 值:下一步是什么?

“p 值的用处不大。”

我们认为 ASA 做得还不够。是时候承认 p 值的时代已经结束了。统计学家已经成功地利用它们来迷惑世界各地的本科生、欺骗科学家和愚弄编辑,但世界开始看穿这种诡计。我们需要放弃统计学家在 20 世纪初试图控制决策制定。我们需要回到真正有效的东西。

官方的 ASS 提案是这样的:

代替 p 值,ASS 提倡 STOP (SeaT-Of-Pants 程序)。这种久经考验的方法被古希腊人、文艺复兴时期的人和所有科学家使用,直到罗纳德·费舍尔出现并毁掉了一切。STOP 简单、直接、数据驱动且具有权威性。为此,权威人士(一位年长的男性,偏好)审查数据并决定他们是否同意他的意见。当他决定他们这样做时,结果是“重要的”。否则不是,每个人都必须忘记整件事。

原则

该响应针对 ASA 的六项原则中的每一项。

  1. STOP 可以指示数据与指定统计模型的不兼容程度。

    我们喜欢这句话,因为它是一种非常奇特的说法,即 STOP 将回答任何问题是或否。与 p 值或其他统计程序不同,它毫无疑问。这是对那些说“我们不需要任何糟糕的零假设”的人的完美回应!什么 *?!@ 到底是什么?没有人能弄清楚它应该是什么。”

  2. STOP 不测量假设为真的概率:它实际上决定了它是否为真。

    每个人都对概率感到困惑。通过排除概率,STOP 消除了多年本科和研究生学习的需要。现在,任何人(年龄足够大的男性)都可以进行统计分析,而无需忍受听一堂统计讲座或运行会喷出难以理解的输出的神秘软件的痛苦和折磨。

  3. 科学结论和商业或政策决策可以基于常识和真正的权威人物。

    无论如何,重要的决定总是由当局做出的,所以让我们承认这一点并切断中间人。使用 STOP 将使统计学家可以自由地做他们最适合的事情:使用数字来混淆真相,并使当权者的偏好神圣化。

  4. 正确的推断需要完整的报告和透明度。

    STOP 是有史以来最透明和不言而喻的统计程序:您查看数据并做出决定。它消除了人们用来隐藏他们不知道数据含义的事实的所有令人困惑的 z 检验、t 检验、卡方检验和字母汤程序(ANOVA!GLM!MLE!)。

  5. STOP 衡量结果的重要性。

    这是不言而喻的:如果权威人士使用了 STOP,那么结果一定很重要。

  6. STOP 本身提供了关于模型或假设的良好证据度量。

    我们不想挑战权威,不是吗?研究人员和决策者将认识到 STOP 提供了他们需要知道的所有信息。由于这些原因,数据分析可以以 STOP 结束;不需要替代方法,例如 p 值、机器学习或占星术。

其他方法

一些统计学家更喜欢所谓的“贝叶斯”方法,在这种方法中,一位 18 世纪神职人员在死后发表的一个晦涩的定理被盲目地应用于解决所有问题。它最著名的倡导者坦率地承认这些方法是“主观的”。如果我们要使用主观方法,那么显然决策者越权威和知识渊博,结果就会越好。因此,STOP 成为所有贝叶斯方法的逻辑限制。当您可以将数据显示给负责人并询问他的意见时,为什么还要努力进行那些可怕的计算并占用这么多计算机时间?故事结局。

最近出现了另一个社区来挑战统计学家的神职。他们称自己为“机器学习者”和“数据科学家”,但实际上他们只是寻求更高地位的黑客。ASS 的官方立场是,如果这些家伙希望人们认真对待他们,就应该组建自己的专业组织。


问题

这是 ASA 用 p 值和零假设检验确定的问题的答案吗?它真的可以将贝叶斯范式和频率论范式结合起来(正如响应中隐含的那样)吗?

3个回答

我一直在倡导我自己的新的统计决策方法,称为 RADD:R oll A D amn D ie。它还解决了所有关键点。

1) RADD 可以指示数据与指定统计模型的兼容性。

如果你掷出更高的数字,显然证据更支持你的模型!一个额外的好处是,如果我们想要更多的信心,我们可以掷出更多面的骰子。如果您搜索得足够多,您甚至可以找到 100 面骰子!

2) RADD 可以判断一个假设是否正确。

你只需要掷一个双面骰子,即掷硬币。

3) RADD 可用于制定业务或政策决策

让一群政策制定者在一个房间里,让他们都掷骰子!最高胜率!

4) RADD 是透明的。

可以记录结果,并且可以保留模具本身以供进一步研究*

5) RADD 衡量结果的重要性。

显然,滚动更高意味着发生了非常重要的事件。

6) RADD 提供了很好的证据量度。

我们不是说更高的卷更好吗?

所以,不,停止不是答案。答案是RADD。

我必须根据我的经验说,在商业现实中,STOP 是默认的决策标准,优先于p-values 和其他常客或贝叶斯方法。从业务角度来看,STOP 提供了简单而明确的答案,这使得它比不确定的“概率”方法更可靠。此外,在绝大多数情况下,与其他方法相比,它更易于实施并且更容易适应不断变化的现实。是/否决定对中高层管理人员更具说服力。在大多数情况下,“STOP 报告”比基于数据的报告更短且更易于阅读。此外,采用这种方法可以让您的雇主降低数据科学家和 SAS 许可证的成本。我会说 STOP 的唯一问题是制作 PowerPoint 演示文稿呈现 STOP 结果比较困难,但这是一个动态发展的领域,因此将来可能会提出更好的可视化方法。

p 值辩论的这个很好的补充,有趣但在我看来有点陈旧,让我想起几年前发表在英国医学杂志(BMJ) 圣诞期的一篇独特论文,每个圣诞节都会发表真实而有趣的研究文章。特别是,Isaacs 和 Fitzgerald的这项工作强调了循证医学的七个关键替代方案(即基于实际临床和统计证据的医学实践):

  • 卓越医学
  • 以暴力为基础的医学
  • 口才医学
  • 普罗维登斯医学
  • 基于差异的医学
  • 神经性医学
  • 基于信心的医学

最有趣的是,您必须查看突出显示上述项目的测量设备和测量单位的列(例如,基于激烈医学的听力计和分贝!)。