我应该相信pp- 统计测试中的值?

机器算法验证 相关性 统计学意义 p 值
2022-03-10 01:48:47

我与我的主管就最近的一篇论文进行了辩论。对 77 名参与者样本的相关性检验得出的 p 值小于 0.05。移除一些参与者后(因为后来我们发现他们还未成年),p 值为 0.06(r = 0.21)。

然后我的主管说,“你应该报告这两个变量之间没有相关性,p 值不显着。”

我的回答是:告诉人们结果在 71 个样本中不显着,但在 77 个样本中显着是没有意义的。在解释趋势时,将结果与文献中的发现联系起来很重要. 尽管我们在这里发现了一个弱趋势,但这种趋势与文献中的大量研究一致,这些研究发现这两个变量之间存在显着相关性。

以下是我的主管回复: 我会以另一种方式争论:如果它在 71 的样本中不再显着,那么它太弱而无法报告。如果有强信号,我们也会在较小的样本中看到它。

我不应该报告这个“不重要”的结果吗?

4个回答

出于这个答案的目的,我将假设排除那少数参与者是完全合理的,但我同意帕特里克的观点,这是一个问题。


p ~ 0.05 或 p = 0.06 之间没有显着差异。这里唯一的区别是约定是将前者视为等同于“真”,而将后者视为等同于“假”。这种约定是可怕的,是不合理的。你和你的教授之间的争论相当于如何形成一个经验法则来处理 p = 0.05 边界的任意性。在一个更理智的世界里,我们不会将这么多的股票投入到样本统计数据的微小波动中。

或者说得更丰富多彩:

...当然,上帝几乎和 0.05 一样爱 .06。上帝将支持或反对零的证据强度视为 p 大小的一个相当连续的函数,这有什么疑问吗?”

-Rosnow, RL 和 Rosenthal, R. (1989)。统计程序和心理科学知识的正当性。美国心理学家,44,1276-1284。

所以继续报告 p = 0.06。数字本身很好,重要的是随后如何描述和解释它。请记住,“重要”和“不重要”是误导性术语。您必须超越它们才能准确地描述您的结果。

此外,我建议您阅读统计测试中 p 值和 t 值的含义是什么?

您的问题中提出了很多问题,因此我将尝试就您提出的每个问题给出答案。为了清楚地描述其中的一些问题,重要的是在一开始就注意到 p 值是针对零假设的证据的连续测量(有利于所述的替代方案),但是当我们将其与规定的显着性水平进行比较时为了得出“统计意义”的结论,我们将证据的连续测量分成二元测量

告诉人们结果在 71 个样本中不显着,但在 77 个样本中显着是没有意义的。

您需要确定这两个中的哪一个实际上是合适的样本——即,从数据中删除六个数据点是否合适。由于在此站点上多次解释的原因(例如,此处此处),删除不是由于不正确记录观察结果的“异常值”是一个坏主意。因此,除非您有理由相信是这种情况,否则使用所有 77 个数据点可能是合适的,在这种情况下,对 71 个数据点的精挑细选子样本说任何话都是没有意义的。

注意这里的问题与统计显着性问题无关。不同假设检验的结果(例如,对不同数据的相同检验)可能不同是完全有道理的,因此没有理由认为在一种情况下存在替代假设的统计显着证据是有问题的,但不是在另一个。这是通过在证据的连续测量中绘制一条“重要性”线而获得二元结果的自然结果。

在解释趋势时,将结果与文献中的发现联系起来很重要。尽管我们在这里发现了一个弱趋势,但这种趋势与文献中的大量研究一致,这些研究发现这两个变量之间存在显着相关性。

如果这是您想做的事情,那么适当的练习是进行荟萃分析以考虑文献中的所有数据。仅凭其他文献和其他数据/证据这一事实,并不能成为以与其他方式不同的方式处理本文中的数据的理由。对自己论文中的数据进行数据分析。如果您担心自己的结果与文献存在偏差,请注意其他证据。然后,您可以进行适当的元分析,其中考虑到所有数据(您的和其他文献),或者您至少可以提醒读者注意可用数据的范围。

以下是我的主管回复: 我会以另一种方式争论:如果它在 71 的样本中不再显着,那么它太弱而无法报告。如果有强信号,我们也会在较小的样本中看到它。我不应该报告这个“不重要”的结果吗?

因为统计结果与其他文献不同而选择不报告数据是一种可怕的、可怕的、统计破产的做法。统计理论中有大量文献警告当研究人员允许他们的统计测试结果影响他们选择报告/发布他们的数据时,就会出现发表偏差问题。事实上,由于基于 p 值做出的发表决定而导致的发表偏差是科学文献的祸根。这可能是科学和学术实践中最大的问题之一。

无论替代假设的证据多么“弱”,您收集的数据都包含应该报告/发布的信息。它在文献中增加了 77 个数据点,无论其价值如何。您应该报告您的数据并报告您的检验的 p 值。如果这不构成所研究效果的统计显着证据,那么就这样吧。

通常,更改进入测试的数据会使使用假设检验来发现显着效果无效。如果您开始编辑数据并重新运行测试以查看发生了哪些更改,您几乎可以得出任何您想要的结果。想象一下,如果您删除 6 名参与者会发生什么,这会使您的发现更加重要。我强烈建议您阅读以下内容:http: //www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf,因为它对在看到后做出分析决策时可能出现的问题进行了很好的讨论数据以及这使 p 值的通常解释无效的事实。

所以我在这种情况下的问题如下:移除这些参与者的动机是什么?是否纯粹基于结果指标(即,这 6 名参与者的效果最强)?或者这些参与者是否有一些内在的原因(未能正确完成任务,不符合入学要求等)?

为了使用 p 值来讨论重要性,应该在运行统计测试之前而不是之后做出这些决定。因此,我会像您最初那样向 77 名参与者报告结果,而忽略您的主管评论。

我只想在这里重申:如果您根据查看数据做出包含/排除决定,那么较小的样本必须显示相同的效果是不正确的。

不,不要相信 p 值。

1 它没有传达你是否有效果。

  • 主要问题应该是您测量的效果(效果大小)是否相关。你说你量过ρ=0.21这在你的领域很重要。那你应该举报。

    p 值更多地被视为实验准确性的指标。如果您的实验不准确,无论是由于噪声大还是样本量小,那么即使没有效果,也可能会在噪声中观察到效果(p 值说明可能性有多大)。

    在您的情况下,相关性通常根据统计量计算 p 值

    =ρn-21-ρ2
    Wich 是 t 分布的ν=n-2当某些假设 a 正确时的自由度(稍后会详细介绍)。

    这意味着 p 值与测量的相关性样本量有关。让我们看看这看起来如何:

    显着性作为样本量和观察到的相关性的函数

    该图显示了显着性如何取决于测量的相关性和样本大小(这些线是 p 值 0.001、0.01、0.02、0.05、0.1 的等高线)。请注意:对于相同的测量效果(例如 0.21 的相关性),您可以根据实验(样本量)具有不同的显着性。(因此,如果显着性“不够好”,则可能取决于实验)

    说没有效果错误的(在测量时ρ=0.21)只是因为您在某个任意级别之上没有意义。相反,您应该得出结论,可能会有影响,但重要性表明您的实验需要重复/改进(提高准确性)才能更加确定。

  • 相关性只是表达存在影响的一种方式。它仅限于线性关系。您的变量之间可能有很强的(非线性)关系,但相关性仍然很低(如果这起作用,那么您就有更多理由不关心 p 值)

    制作一个情节以便更好地了解正在发生的事情。在此处查看更多信息: Anscombe 的四重奏

2 计算的基本假设可能是错误的。

  • 相关性的 p 值的计算是不明确的。有不同的方法。当您使用前面提到的 t 统计量时,您的假设是这两个变量是独立不相关的正态分布变量。但是您可能会为您的数据使用其他一些分布(例如,一些更宽的尾部)。在这种情况下,引导方法可能会更好。

    例子。让您的数据是两个相同的独立分布伯努利变量(与psCCes=0.05)。让我们模拟一下这种情况,看看 p 值是如何分布的(应该是均匀分布)。

    当分布是伯努利而不是正态分布时的 p 值

    这些伯努利分布变量通常不会应用相关性和 p 值计算。但是,对于具有多峰分布的连续分布的情况,它是一个简单的模型。

    您可以使用不同的变量进行类似的模拟。通常,观察到的 p 值低估了真实概率(例如,低于 x% 的 p 值实际上比 x% 的情况更频繁地发生)。因此,您计算的 p 值 p=0.06 可能低估了真实的 p 值(如果您使用 t 分布并且假设不正确)。


哲学的

此外,p=0.05 和 p=0.06 之间的差异不是很重要。但是很难说在是/否之间存在“边界”的值是什么。这与Sorites 悖论有关。我的观点是,认为存在某种界限是一种错误的二分法。p 值和显着性的概念不是非黑即白的(并且强加的边界是不切实际的,在实践中将是非常武断的)。

实践

  • 功效分析通常,您可以通过预先计算所需的样本类型来避免这些问题,以便能够在预期效应大小的范围内准确测量。

  • 两个单边 t 检验除了测试原假设(我的数据/实验)是否与原假设相对应或相反,您还可以考虑评估您的数据/实验是否与备择假设相对应。这是通过单侧 t 检验完成的。您可能会遇到这样的情况,即您的数据既不(显着)不同意零假设(没有效果)也不同意替代假设(一些最小程度的效果)。

  • 理想情况下,您报告所有值。不仅仅是重要的。(但也许你的意思是“报告价值”,比如“讨论文本中的价值”)