假设原假设是两个样本来自两个具有相等中位数或相等方差的分布。并且 p 值是在原假设成立的情况下,一个值或更极端的值来自原始分布的概率。因此,为什么具有低 p 值的相关性意味着它们很强?如果零假设是它们不是来自相似的分布,这似乎成立。
你能把我说清楚吗?
问候,
假设原假设是两个样本来自两个具有相等中位数或相等方差的分布。并且 p 值是在原假设成立的情况下,一个值或更极端的值来自原始分布的概率。因此,为什么具有低 p 值的相关性意味着它们很强?如果零假设是它们不是来自相似的分布,这似乎成立。
你能把我说清楚吗?
问候,
假设观察是从原始分布中得出的,p 值是由于偶然性而进行某个观察(或更极端)的概率。
通常(哈哈)你会期望观察结果非常接近分布的算术平均值。如果观察结果与平均值相差甚远,可能是因为两件事: a) 观察结果是偶然发生的——这必须是可能的;否则分布的概率密度函数将远离均值 0。或者 b) 观察结果不同,因为它是由不同的分布产生的,其均值与原始分布不同。所以一个小的 p 值意味着远离原始分布的平均值的观察是极不可能的,如果它是由那个分布产生的。完全有可能但实际上不太可能(即概率为 p)。
现在,在统计界的一个分支中,有这样一种惯例,即认为 p 值低于某个阈值,以证明观察结果来自与原始分布不同的分布。该阈值称为“alpha”,并在实验之前设置。因此,如果 alpha 例如 0.05 且 p 低于该值,我们认为这是观察结果来自不同分布的证据。
这就是均值 p 值的故事。当涉及到相关性时,相关性的强度(在这种情况下是观察值)由不同的变量给出 - 例如,具有高 r 意味着相关性很强。但即使 r 的值很高,p 值也可能不同——高值和低值。在 p 值较低的情况下,我们认为由于偶然性而不太可能得到那种 r。高 p 值可能表示数据中有大量噪声,因此相关性本身很高,但这是由于偶然性造成的概率也很高。您还可以具有非常低的 r 值,但具有很高的确定性(p 值较低)。所以相关性的强度不是用p来衡量的。