说 p 值越低,t 检验中两组的两个均值之差越高,这是否正确?
例如,如果我在两组测量值 A 和 B 之间应用 t 检验,然后对两组测量值 B 和 C 应用 t 检验,我发现在第一种情况下 p 值低于第二种情况,是否可以可能的解释是 A 组和 B 组均值之间的差异大于 B 组和 C 组均值之间的差异?
说 p 值越低,t 检验中两组的两个均值之差越高,这是否正确?
例如,如果我在两组测量值 A 和 B 之间应用 t 检验,然后对两组测量值 B 和 C 应用 t 检验,我发现在第一种情况下 p 值低于第二种情况,是否可以可能的解释是 A 组和 B 组均值之间的差异大于 B 组和 C 组均值之间的差异?
没有。
您所指的(A组和B组均值之间的差异)实际上是效果大小,它与p值绝对无关。
这种情况在(强烈推荐的)论文Using Effect Size-or Why the P Value Is Not Enough中得到了很好的总结(强调我的):
为什么要报告效应量?
效应量是定量研究的主要发现。虽然 P值可以告知读者是否存在效应,但P值不会揭示效应的大小。在报告和解释研究中,实质性显着性(效应大小)和统计显着性(P值)都是需要报告的基本结果。
为什么 P 值不够?
统计显着性是观察到的两组之间的差异是偶然的概率。如果P值大于所选的 alpha 水平(例如,0.05),则假定任何观察到的差异都可以通过抽样变异性来解释。对于足够大的样本,统计检验几乎总是会显示出显着差异,除非没有任何影响,也就是说,当影响大小正好为零时;然而,非常小的差异,即使很重要,通常也毫无意义。因此,仅报告分析的显着P值不足以让读者充分理解结果。
换句话说,p 值反映了我们对效果确实存在的信心(这不是偶然的),但它绝对没有说明它的大小(大小)。
事实上,关注 p 值而不是效果大小的做法一直是许多争议的根源,也是最近激烈批评的主题。请参阅(再次强烈推荐)《统计意义的崇拜:标准错误如何使我们失去工作、正义和生活》一书。
Cross Validated 的以下主题也可能有用:
p 值不能用于比较两个不同组或指定的两组在一段时间内生成的 t 统计量。p 值只是说明计算的 t 统计量在 0.05 或 0.02 或 0.15 等处具有统计显着性。经过多次误解,p 值不必要地被争论。这是一个推理统计。