也许这个问题很幼稚,但是:
如果线性回归与 Pearson 相关系数密切相关,那么是否有任何回归技术与 Kendall 和 Spearman 相关系数密切相关?
也许这个问题很幼稚,但是:
如果线性回归与 Pearson 相关系数密切相关,那么是否有任何回归技术与 Kendall 和 Spearman 相关系数密切相关?
有一种非常简单的方法可以使用几乎任何相关性度量来拟合线性回归,并且当您使用 Pearson 相关性时,它会重现最小二乘。
考虑如果关系的斜率为和之间的相关性应该是。
事实上,如果它不是0就会有一些未捕获的线性关系——这就是相关性度量会得到的。
和之间的样本相关性为的斜率来估计斜率。在许多情况下——例如,当使用基于等级的测量时——相关性将是斜率估计值的阶跃函数,因此可能存在一个为零的区间。在这种情况下,我们通常将样本估计值定义为区间的中心。通常,阶跃函数会在某个点从零以上跳到零以下,在这种情况下,估计值就在跳点处。
例如,此定义适用于所有基于排名的稳健相关性。它还可以用于获得斜率的区间(以通常的方式 - 通过找到标记仅显着相关性和仅不显着相关性之间的边界的斜率)。
当然,这只定义了斜率;一旦估计斜率,截距可以基于对残差计算的合适位置估计。对于基于等级的相关性,中位数是一种常见的选择,但还有许多其他合适的选择。
这是针对 R 中数据的斜率绘制的相关性car
:
Pearson 相关在最小二乘斜率 3.932
处交叉 0 Kendall 相关在 Theil-Sen 斜率 3.667 处
交叉 0 Spearman 相关交叉 0 给出 3.714 的“Spearman 线”斜率
这些是我们示例的三个斜率估计值。现在我们需要拦截。为简单起见,我将只使用第一个截距的平均残差和其他两个截距的中位数(在这种情况下并不重要):
intercept
Pearson: -17.573 *
Kendall: -15.667
Spearman: -16.285
*(与最小二乘法的微小差异是由于斜率估计中的舍入误差;毫无疑问,其他估计中存在类似的舍入误差)
对应的拟合线(使用与上述相同的配色方案)为:
编辑:相比之下,象限相关斜率为 3.333
Kendall 相关和 Spearman 相关斜率对有影响的异常值的鲁棒性明显高于最小二乘法。有关 Kendall 案例的戏剧性示例,请参见此处。
比例优势 (PO) 模型概括了 Wilcoxon 和 Kruskal-Wallis 检验。Spearman 相关性is binary 是简单翻译的 Wilcoxon 检验统计量。所以你可以说PO模型是一种统一的方法。由于 PO 模型可以有与唯一值一样多的截距(少一个),它同时处理序数和连续.
分数的分子PO 模型中的统计量正是 Wilcoxon 统计量。
PO 模型是更一般的累积概率(有些称为累积链接)模型系列的特例,包括概率、比例风险和互补对数对数模型。有关案例研究,请参阅我的讲义的第 15 章。
Aaron Han (1987 in econometrics) 提出了通过最大化 tau 来拟合回归模型的最大秩相关估计量。Dougherty 和 Thomas(2012 年在心理学文献中)最近提出了一个非常相似的算法。关于 MRC 的大量工作说明了它的特性。
Aaron K. Han,广义回归模型的非参数分析:最大秩相关估计,计量经济学杂志,第 35 卷,第 2-3 期,1987 年 7 月,第 303-316 页,ISSN 0304-4076,http:// dx.doi.org/10.1016/0304-4076(87)90030-3。(http://www.sciencedirect.com/science/article/pii/0304407687900303)
Dougherty, MR 和 Thomas, RP (2012)。非线性世界中的稳健决策。心理评论,119 (2), 321。来自http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf。