为排名数据(Spearman 相关性)绘制回归线是否“可以”?

机器算法验证 回归 数据可视化 斯皮尔曼罗 有序的logit 等渗
2022-03-17 04:49:37

我有数据,我计算了 Spearman 相关性并希望将其可视化以用于出版物。因变量是排名的,自变量不是。我想要可视化的是总体趋势而不是实际斜率,因此我对独立进行了排名并应用了 Spearman 相关/回归。但就在我绘制数据并将其插入手稿时,我偶然发现了这个声明(在这个网站上):

当您进行 Spearman 等级相关时,您几乎永远不会使用回归线进行描述或预测,因此不要计算回归线的等价物

然后

您可以按照与线性回归或相关性相同的方式绘制 Spearman 等级相关性数据。但是,不要在图表上放置回归线当您使用等级相关性分析图表时,将线性回归线放在图表上会产生误导。

问题是,回归线与我不对独立项进行排名并计算 Pearson 相关性时没有什么不同。趋势是一样的,但是由于期刊中彩色图形的高昂费用,我使用单色表示,实际数据点重叠太多以至于无法识别。

当然,我可以通过制作两个不同的图来解决这个问题:一个用于数据点(排名),一个用于回归线(未排名),但如果事实证明我引用的来源是错误的或问题在我的情况下没有那么大的问题,它会让我的生活更轻松。(我也看到了这个问题,但对我没有帮助。)

编辑以获取更多信息:

x 轴上的自变量表示特征的数量,y 轴上的因变量表示分类算法在比较其性能时的排名。现在我有一些平均而言可比的算法,但我想用我的情节说的是:“虽然分类器 A 变得更好,但存在的特征越多,分类器 B 越好,当存在的特征越少时”

编辑 2 以包括我的情节:

绘制的算法等级与特征数量 在此处输入图像描述

绘制的算法排名与排名的特征数量 在此处输入图像描述

因此,重复标题中的问题:

可以为 Spearman 相关/回归的排名数据绘制回归线吗?

2个回答

正如您所注意到的,秩相关可用于获取变量之间的单调关联;因此,您通常不会为此绘制一条线。

在某些情况下,无论是 Kendall 还是 Spearman(或其他人),使用秩相关来实际拟合 numeric-y 与 numeric-x 的线是非常有意义的。请参阅此处的讨论(尤其是最后一个情节)

不过,这不是你的情况。在您的情况下,我倾向于只呈现原始数据的散点图,可能具有平滑的关系(例如通过 LOESS)。

你期望这种关系是单调的;您可能会尝试估计和绘制单调关系。[这里讨论了一个可以拟合等渗回归的 R 函数——虽然该示例是单峰非等渗的,但该函数可以进行等渗拟合。]

这是我的意思的一个例子:

在此处输入图像描述

该图显示了 x 和 y 之间的单调关系;红色曲线是黄土平滑曲线(在这种情况下由 R 生成scatter.smooth),它也恰好是单调的(有一些方法可以获得保证单调的平滑拟合,但在这种情况下,默认的黄土平滑是单调的,所以我觉得没必要担心。

在此处输入图像描述
rank(y) 与 rank(x) 的图,表示单调关系。绿线显示了黄土曲线拟合值对 rank(x) 的等级。

x 和 y 等级之间的相关性(即 Spearman 相关性)为 0.892 - 高单调关联。类似地,(单调)拟合的黄土平滑曲线(是的^) 并且 y 值也是 0.892。[不过,这并不奇怪,因为任何作为 x 的单调递增函数的曲线都是如此,所有这些曲线也都对应于绿线。绿线不是 rank(x) 和 rank(y) 之间的回归线,但它是对应于原始图中单调拟合的线。排名数据的“回归线”的斜率为 0.892,而不是 1,所以它有点“平坦”。]

如果您只显示 rank(Y) vs X 之外的任何内容,我想我会避免在绘图上使用线条;据我所见,它们在相关系数之上并没有传达太多价值。并且已经说过你只对趋势感兴趣。

[我不知道在排名-y 与排名-x 的图上绘制回归线是错误的,困难在于它的解释。]

斯皮尔曼的使用ρ相当于使用比例优势序数逻辑模型,如果要对X建模时的矢量。PO 模型通常建模X在其原始尺度上,并且可以包括非线性项。为了获得预测,使用基于模型的方法是有利的。例如,您可以绘制X与预测平均值或预测中位数从 PO 模型拟合。示例在http://biostat.mc.vanderbilt.edu/rms的讲义中。