排名相关统计比较

机器算法验证 斯皮尔曼罗 肯德尔陶 基尼
2022-04-02 14:47:40

我试图了解以下等级相关统计数据的相对行为:

  1. 斯皮尔曼系数
  2. Kendall Tau / 一致性百分比
  3. 归一化基尼系数(捕获百分比与观察百分比的曲线下面积)
  4. ROC 曲线下的归一化面积(用于二元分类器)

我不相信其中任何一个在功能上与其他的相关。这里接受的答案引用了这篇论文,Spearman 和 Kendall 高度相关(正如人们所期望的那样)。

对于(任何一对)这些度量的相对(跨数据集)或绝对(对于给定数据集)差异是否有很好的直觉/讨论?

1个回答

提出的问题相当复杂。正如分析师已经指出的那样,我认为所有这些度量都不能直接比较,因为秩相关系数、基尼系数和 AUC(ROC 曲线下的面积)通常在不同的域上定义。

然而,Kendall 之间的关系非常密切。τ和斯皮尔曼的ρ,列表中的两个秩相关系数。虽然提到的论文 cohoz已经通过经验证明了它们的关系(图 3),但这种关系实际上可以在理论上进行量化。πσ是两个排名,并且π(i)σ(i)成为项目的行列iπσ, 分别。肯德尔距离和斯皮尔曼距离πσ定义如下:

K(π,σ)=#{(i,j)|π(i)>π(j) and σ(i)<σ(j)}
S(π,σ)=i(π(i)σ(i))2
我们之间有以下关系KS遵循[Diaconis 和 Graham 1977]
1nK(π,σ)S(π,σ)2K(π,σ)
因为等级相关系数只是等级距离到区间的归一化[1,1], 类似的不等式可以很容易地在τρ. 在统计排名文献中,结果主要以距离而不是系数来表示。

还有两件事:

  1. 排名πσ必须是完整的排名才能使这种不等式成立。也就是说,它们不能是部分排名。
  2. 如果有人感兴趣τρ不仅在排名上而且在连续随机变量上定义,情况更加复杂。这是Fredicks 和 Nelsen的相关论文。