相互比较 p 值有什么意义?

机器算法验证 统计学意义 t检验 p 值 规模效应
2022-01-26 17:36:20

我有两个人口(男性和女性),每个包含1000样品。对于每个样本,我有两个属性 A 和 B(第一年平均成绩和 SAT 分数)。我对 A 和 B 分别使用了 t 检验:两者都发现两组之间存在显着差异;一个与p=0.008和 B 与p=0.002.

是否可以声称属性 B 比属性 A 更受歧视(更重要)?还是说 t 检验只是一个是或否(显着或不显着)度量?

更新:根据这里的评论和我在维基百科上读到的内容,我认为答案应该是:丢弃无意义的 p 值并报告你的效果大小有什么想法吗?

4个回答

很多人会争辩说,p-值可以是重要的(p<α) 与否,因此比较两者是没有意义的p-彼此之间的值。这是错误的;在某些情况下确实如此。

在您的特定情况下,您可以直接比较p-价值观。如果样本量是固定的(n=1000), 然后p-值单调相关t-值,这些值又与 Cohen 测量的效应大小单调相关d. 具体来说,d=2t/n. 这意味着您的p-值与效果大小一一对应,因此您可以确定,如果p- 属性 A 的值大于属性 B,则 A 的影响大小小于属性 B。

我相信这回答了你的问题。

几点补充:

  1. 仅考虑到样本量,这才是正确的n是固定的。如果你得到p=0.008对于具有一种样本大小的实验中的属性 A,以及p=0.002对于另一个样本量不同的实验中的属性 B,比较它们更加困难。

    • 如果问题具体是 A 或 B 在人群中是否更好地“区分”(即:通过查看 A 或 B 值,您能在多大程度上预测性别?),那么您应该查看效应大小。在简单的情况下,知道pn足以计算效果大小。

    • 如果问题更模糊:什么实验提供了更多反对无效的“证据”?(如果例如 A=B,这可能是有意义的)——那么问题就会变得复杂和有争议,但我想说的是p-value 根据定义针对 null 的证据的标量汇总,因此越低p-值,证据越强,即使样本量不同。

  2. 说 B 的效应量大于 A 的效应量,并不意味着它明显更大。您需要在 A 和 B 之间进行一些直接比较才能做出这样的声明。

  3. 报告(和解释)效果大小和置信区间总是一个好主意,除了p-价值观。

感谢刚刚对我投反对票的人,因为我现在对这个问题有一个完全不同的答案。我相应地删除了我的原始答案,因为从这个角度来看它是不正确的。

在这个问题的背景下,它只处理“我的研究中 A 还是 B 是更好的鉴别器”这个问题,我们处理的是人口普查而不是样本。因此,使用诸如用于产生 p 值的推论统计是无关紧要的。推论统计用于从我们从样本中获得的那些推断人口估计。如果我们不想推广到人群,那么这些方法是不必要的。(人口普查中的缺失值存在一些具体问题,但在这种情况下这些问题无关紧要。)

在总体中没有获得结果的可能性。我们得到了我们得到的结果。因此,我们得到结果的概率是 100%。无需构建置信区间 - 样本的点估计是准确的。我们根本不需要估计任何东西。

在“哪个变量更适合我拥有的数据”的特定情况下,只需以简单的摘要形式查看结果即可。一张表格可能就足够了,也许是一个像箱线图这样的图表。

您得到 p 的差异,但尚不清楚该差异意味着什么(它是大、小还是显着?)

也许使用引导:

从您的数据中选择(替换),重做测试,计算 p (p_a - p_b) 的差异,重复 100-200 次

检查您的 delta p 的哪一部分 < 0(意味着 A 的 p 低于 B 的 p)

注意:我已经看到这样做了,但我不是专家。

添加了答案,因为评论太长了!

Michelle 的反应很好,但许多评论显示了一些关于 p 值的常见讨论。基本思路如下:

1) 较小的 p 值并不意味着结果或多或少显着。这只是意味着获得至少极端结果的可能性较小。显着性是基于您选择的显着性水平(在运行测试之前选择)的二元结果。

2)效应大小(通常标准化为标准差的#)是量化两个数字“差异程度”的好方法。因此,如果数量 A 的效应大小为 0.8 个标准差,而数量 B 的效应大小为 0.5 个标准差,那么您会说数量 A 中的两组之间的差异比数量 B 中的更大。标准测量值是:

.2 标准偏差 = “小”效应

.5 标准差 = “中等”效应

.8 标准偏差 = “大”效应