将非显着结果解释为“趋势”

机器算法验证 统计学意义
2022-01-22 19:49:41

最近,两个不同的同事使用了一种关于条件差异的论点,这在我看来是不正确的。这两位同事都使用统计数据,但他们不是统计学家。我是统计学的新手。

在这两种情况下,我都认为,由于实验中的两个条件之间没有显着差异,因此对这些组就操纵做出一般性声明是不正确的。请注意,“提出一般性声明”意味着类似这样的写法:“A 组比 B 组更频繁地使用 X”。

我的同事反驳说:“即使没有显着差异,趋势仍然存在”和“即使没有显着差异,仍然存在差异”。对我来说,这两个听起来都是模棱两可的,也就是说,它们将“差异”的含义从“可能是非偶然因素的结果”(即统计显着性)更改为“任何非- 组间测量的零差异”。

我同事的反应正确吗?我没有接受他们,因为他们比我高。

4个回答

这是一个很好的问题; 答案很大程度上取决于上下文。

总的来说,我会说你是对的:做出像“A 组比 B 组更频繁地使用 X”这样的不合格的一般性声明是具有误导性的。最好说类似的东西

在我们的实验中,A 组比 B 组更频繁地使用 X,但我们非常不确定这将如何在普通人群中发挥作用

或者

尽管在我们的实验中,A 组使用 X 的频率比 B 组高 13%,但我们对一般人群差异的估计尚不清楚:合理的值范围从 A 使用 X的频率比 B 组5% 到 A 使用 X 21%比B组更频繁

或者

A 组比 B 组多使用 X 13%,但差异无统计学意义(95% CI -5% 至 21%;p=0.75)

另一方面:你的同事是对的,在这个特定的实验中,A 组比 B 组更频繁地使用 X。然而,人们很少关心特定实验的参与者;他们想知道你的结果将如何推广到更大的人群,在这种情况下,一般的答案是你不能自信地说随机选择的组 A 是否会比随机选择的组 B 更多或更少地使用 X。

如果您今天需要选择是使用治疗 A 还是治疗 B 来增加 X 的使用,在没有任何其他信息或成本差异等情况下,那么选择 A 将是您的最佳选择。但是,如果您想对自己可能做出正确的选择感到满意,那么您将需要更多信息。

请注意,您不应“A 组和 B 组在 X 的使用上没有区别”,或“A 组和 B 组使用 X 的数量相同”。在您的实验中(A 使用 X 多 13%)或普通人群中的参与者都不是这样;在大多数现实世界的上下文中,您知道 A 与 B 之间肯定存在某种影响(无论多么轻微);你只是不知道它往哪个方向走。

这是一个棘手的问题!

首先,您可以选择确定统计显着性的任何阈值都是任意的。大多数人使用的事实5% p-value 并没有使它比任何其他更正确。因此,在某种意义上,您应该将统计显着性视为“光谱”,而不是非黑即白的主题。

假设我们有一个零假设H0(例如,组AB显示变量的相同平均值X,或变量的总体均值Y低于 5)。您可以将零假设视为“无趋势”假设。我们收集一些数据来检查我们是否可以反驳 H0(原假设永远不会“被证明为真”)。使用我们的样本,我们进行一些统计,最终得到一个p-值简而言之,p-value 是纯机会产生的结果与我们得到的结果相同(或更多)极端的概率,当然假设H0是真的(即没有趋势)。

如果我们得到一个“低”p-值,我们说机会很少会产生结果,因此我们拒绝H0(有统计学意义的证据表明H0可能是假的)。如果我们得到一个“高”p-value,那么结果更有可能是运气的结果,而不是实际趋势。我们不说H0是真的,但更确切地说,应该进一步研究以拒绝它。

警告:一个p-的价值23%并不意味着有23%没有任何趋势的可能性,而是这种可能性产生的结果是那些23%的时间,这听起来很相似,但却是完全不同的事情。例如,如果我声称一些荒谬的事情,例如“我可以在掷骰子发生前一小时预测结果”,我们会做一个实验来检查原假设H0:=“我不能做这样的事情”并得到一个0.5% p值,尽管具有统计意义,但您仍然有充分的理由不相信我。

因此,考虑到这些想法,让我们回到您的主要问题。假设我们要检查是否增加药物剂量X对患者在某种疾病中存活的可能性有影响。我们进行实验,拟合逻辑回归模型(考虑许多其他变量)并检查与“剂量”变量相关的系数的显着性(称为该系数β,我们将检验零假设H0: β=0或许,β0. 在英语中,“药物没有作用”或“药物没有作用或有负面作用”。

实验结果抛出一个正的 beta,但测试β=0保持在 0.79。我们能说有趋势吗?好吧,那真的会削弱“趋势”的含义。如果我们接受这种事情,基本上我们所做的所有实验中有一半会显示“趋势”,即使是在测试最荒谬的事情时也是如此。

所以,总而言之,我认为声称我们的药物有任何作用是不诚实的。相反,我们应该说的是,除非进行进一步的测试,否则我们的药物不应该投入生产。事实上,我想说的是,即使达到了统计显着性,我们仍然应该谨慎对待我们提出的主张。如果有机会,你会服用那种药吗?4%产生这些结果?这就是为什么研究复制和同行评审至关重要。

我希望这个过于冗长的解释可以帮助你整理你的想法。总结就是你是绝对正确的!我们不应该在报告中填写没有证据支持的疯狂主张,无论是用于研究、商业还是其他用途。如果你真的认为有趋势,但没有达到统计显着性,那就用更多的数据重复实验!

显着效果仅意味着您测量了不太可能的异常(如果零假设(没有效果)为真,则不太可能)。因此,它必须以很高的概率被怀疑(尽管这个概率不等于 p 值并且还取决于先前的信念)。

根据实验的质量,您可以测量相同的效应大小,但这可能不是异常(如果原假设为真,则不是不太可能的结果)。

当您观察到一个效果但它并不显着时,它(效果)确实仍然存在,但它只是不显着(测量结果并不表明应该以高概率怀疑/拒绝原假设)。这意味着你应该改进你的实验,收集更多的数据,更加确定。

因此,您应该选择以下四个类别,而不是二分法效应与无效应:

四大类

来自https://en.wikipedia.org/wiki/Equivalence_test的图片解释了两个单侧 t 检验程序 (TOST)

您似乎属于 D 类,测试尚无定论。你的同事说有效果可能是错误的。但是,说没有效果同样是错误的!

听起来他们在争论 p 值与“趋势”的定义。

如果您将数据绘制在运行图上,您可能会看到一个趋势……一系列显示随时间上升或下降的趋势的绘图点。

但是,当您对其进行统计时.. p 值表明它并不重要。

为了使 p 值显示出很小的意义,但让他们看到一系列数据中的趋势/运行……这将是一个非常轻微的趋势。

所以,如果是这样的话,我会求助于 p 值。IE:好的,是的,数据中有一个趋势/运行。但它是如此轻微和微不足道,以至于统计数据表明它不值得进一步追求分析。

微不足道的趋势可能是由于研究中的某种偏见造成的……也许是非常轻微的……可能只是实验中发生的一次事件,碰巧产生了轻微的趋势。

如果我是团队的经理,我会告诉他们不要再浪费时间和金钱去挖掘微不足道的趋势,而要寻找更重要的趋势。