连续变量和分类(名义)变量之间的相关性

机器算法验证 相关性 分类数据 描述性统计 生物统计学 斯皮尔曼罗
2022-02-03 05:56:45

我想找到连续(因变量)和分类(名义:性别,自变量)变量之间的相关性。连续数据不是正态分布的。之前,我使用 Spearman 的计算过它。但是,有人告诉我这是不对的。ρ

在互联网上搜索时,我发现箱线图可以提供有关它们关联程度的想法;但是,我正在寻找一个量化的值,例如 Pearson 的乘积矩系数或 Spearman 的你能帮我解决这个问题吗?或者,告知哪种方法合适?ρ

点双列系数会是正确的选择吗?

4个回答

审稿人应该告诉你为什么 Spearman不合适。这是其中的一个版本:假设数据为,其中是测量变量,是性别指标,假设它是 0(男人),1(女人)。的秩计算Spearman 的只有两个可能的值,因此会有很多联系,所以这个公式不合适。如果您将排名替换为平均排名,那么您将只得到两个不同的值,一个用于男性,另一个用于女性。然后ρ(Zi,Ii)ZIρZ,IIρ将基本上成为两组之间平均排名的一些重新调整的版本。简单地比较手段会更简单(更容易解释)!另一种方法如下。

是男性中连续变量的观测值,在女性中相同。现在,如果的分布相同,则将为 0.5(假设分布是纯粹绝对连续的,因此没有关系)。在一般情况下,定义 其中是男性随机抽取,是女性随机抽取。我们可以从我们的样本中估计形成所有对(假设没有关系)并计算我们有多少“人更大”()(X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) 和多少个“女人更大” ( ) ( )。的一个样本估计 这是一种合理的相关性度量!(如果只有少数关系,请忽略它们)。但我不确定它叫什么,如果它有名字的话。这个可能很接近: https ://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W

我现在也有同样的问题。我还没有看到有人提到这个,但我正在研究基于 Pearson 相关系数的点双列相关。它是连续变量和二分变量的均值。

快速阅读: https ://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

我使用 R,但我发现 SPSS 有很好的文档。

似乎最合适的比较是比较中位数(因为它是非正态的)和二元类别之间的分布。我建议使用非参数 Mann-Whitney 检验...

对于指定的问题,测量接收操作员特征曲线的曲线下面积可能会有所帮助。

我不是这方面的专家,所以我尽量保持简单。请对任何错误或错误解释发表评论,以便我进行更改。

x是你的连续变量。y是你的分类。如果你选择一个值,看看你得到多少真阳性和假阳性x作为正面和负面(或男性和女性)之间的阈值,您将其与真实标签进行比较。例如,您选择 7,然后在上面x=7 均为女性 (1) 及以下x=7 所有男性 (0)。将其与真实标签进行比较,并获得预测的真阳性和假阳性数。

重复上述过程,从 min(x) 到最大值 (x) 您将生成真阳性率和假阳性率,然后您可以像下图那样绘制它们,您可以计算曲线下的面积。

这个想法是,如果变量之间没有相关性,那么对于所有值,您将获得相同的真阳性和真阴性比率x,然而,如果存在良好的相关性(同样代表反相关性),真阳性与真阴性的比率将变化很大x变化。

上述语句是用曲线下面积计算的。

良好相关性(右)和公平反相关性(左)的示例良好相关性(右)和公平反相关性(左)的 示例。