相关性与卡方

机器算法验证 相关性 卡方检验
2022-03-29 09:42:38

到目前为止,我使用相关性来研究两个变量是否相互影响。现在我偶然发现卡方也在这样做(http://www.r-tutor.com/elementary-statistics/goodness-fit/chi-squared-test-independence)。分别在哪里更适合哪一个?

在相同的上下文中,我发现https://www.rdocumentation.org/packages/mvoutlier/versions/2.0.9/topics/chisq.plot其中“数据的有序稳健马氏距离与卡方分布的分位数"被绘制。这现在非常令人困惑,因为我习惯于应用马氏距离来衡量相似性。现在它与卡方相连。

你能帮我把它们分开吗?

2个回答

首先,在你的开场白中,“受影响”应该是“线性相关”。两个变量可以相关并且没有丝毫因果关系,并且相关性不能衡量所有关系,只是线性关系(无论是数量本身(Pearson)还是它们的等级(Spearman))。

因此,相关性是关于两个变量之间的线性关系。通常,两者都是连续的(或几乎是连续的),但对于一个二分法的情况存在变化。

卡方通常是关于两个变量的独立性。通常,两者都是分类的。在您的第一个链接中,这两个变量是吸烟和运动,并且都是按顺序测量的 - 例如,不是根据香烟数量或运动分钟数。(顺便说一句,我更喜欢使用捕捉变量序数性质的测试,我认为这不是卡方的最佳示例)。

您的第二个链接是卡方的一种相当专业的用法 - 在没有异常值的情况下,它似乎是通过比较 Mahlanobis 距离与其分布应该是什么来找到多元异常值的尝试。当你学习卡方的基础知识时,我会把它放在一边。

一般来说,卡方是一种非参数检验,用于显示两个定性变量(如性别和眼睛颜色)之间的关联;而相关性(皮尔逊系数)用于测试两个定量变量(如心率和血压)之间的相关性