我想找到连续(因变量)和分类(名义:性别,自变量)变量之间的相关性。连续数据不是正态分布的。之前,我使用 Spearman 的计算过它。但是,有人告诉我这是不对的。
在互联网上搜索时,我发现箱线图可以提供有关它们关联程度的想法;但是,我正在寻找一个量化的值,例如 Pearson 的乘积矩系数或 Spearman 的。你能帮我解决这个问题吗?或者,告知哪种方法合适?
点双列系数会是正确的选择吗?
我想找到连续(因变量)和分类(名义:性别,自变量)变量之间的相关性。连续数据不是正态分布的。之前,我使用 Spearman 的计算过它。但是,有人告诉我这是不对的。
在互联网上搜索时,我发现箱线图可以提供有关它们关联程度的想法;但是,我正在寻找一个量化的值,例如 Pearson 的乘积矩系数或 Spearman 的。你能帮我解决这个问题吗?或者,告知哪种方法合适?
点双列系数会是正确的选择吗?
审稿人应该告诉你为什么 Spearman不合适。这是其中的一个版本:假设数据为,其中是测量变量,是性别指标,假设它是 0(男人),1(女人)。的秩计算Spearman 的。只有两个可能的值,因此会有很多联系,所以这个公式不合适。如果您将排名替换为平均排名,那么您将只得到两个不同的值,一个用于男性,另一个用于女性。然后将基本上成为两组之间平均排名的一些重新调整的版本。简单地比较手段会更简单(更容易解释)!另一种方法如下。
令是男性中连续变量的观测值,在女性中相同。现在,如果和的分布相同,则将为 0.5(假设分布是纯粹绝对连续的,因此没有关系)。在一般情况下,定义 其中是男性随机抽取,是女性随机抽取。我们可以从我们的样本中估计形成所有对(假设没有关系)并计算我们有多少“人更大”()(
我现在也有同样的问题。我还没有看到有人提到这个,但我正在研究基于 Pearson 相关系数的点双列相关。它是连续变量和二分变量的均值。
快速阅读: https ://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
我使用 R,但我发现 SPSS 有很好的文档。
似乎最合适的比较是比较中位数(因为它是非正态的)和二元类别之间的分布。我建议使用非参数 Mann-Whitney 检验...
对于指定的问题,测量接收操作员特征曲线的曲线下面积可能会有所帮助。
我不是这方面的专家,所以我尽量保持简单。请对任何错误或错误解释发表评论,以便我进行更改。
是你的连续变量。是你的分类。如果你选择一个值,看看你得到多少真阳性和假阳性作为正面和负面(或男性和女性)之间的阈值,您将其与真实标签进行比较。例如,您选择 7,然后在上面=7 均为女性 (1) 及以下=7 所有男性 (0)。将其与真实标签进行比较,并获得预测的真阳性和假阳性数。
重复上述过程,从 min() 到最大值 () 您将生成真阳性率和假阳性率,然后您可以像下图那样绘制它们,您可以计算曲线下的面积。
这个想法是,如果变量之间没有相关性,那么对于所有值,您将获得相同的真阳性和真阴性比率,然而,如果存在良好的相关性(同样代表反相关性),真阳性与真阴性的比率将变化很大变化。
上述语句是用曲线下面积计算的。