机器算法验证 - 为什么 Pearson 参数化和 Spearman 非参数化 - 吾爱随笔录

为什么 Pearson 参数化和 Spearman 非参数化

机器算法验证皮尔逊-r 非参数斯皮尔曼罗

2022-01-24 20:30:29

显然 Pearson 的相关系数是参数的，而 Spearman 的 rho 是非参数的。

我很难理解这一点。据我了解，Pearson 的计算方式为并且 Spearman 的计算方式相同，除了我们用它们的等级替换所有值。

r_{x y} = \frac{c o v (X, Y)}{σ_{x} σ_{y}}

$r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y}$

维基百科说

参数模型和非参数模型的区别在于前者的参数数量是固定的，而后者的参数数量随着训练数据量的增加而增长。

但除了样本本身，我没有看到任何参数。有人说参数测试假设正态分布并继续说Pearson 确实假设正态分布数据，但我不明白为什么 Pearson 会要求这样做。

所以我的问题是在统计的背景下参数和非参数是什么意思？Pearson 和 Spearman 如何融入其中？

3个回答

问题在于，如今“非参数”确实有两个不同的含义。维基百科中的定义适用于非参数曲线拟合，例如通过样条曲线或局部回归。另一个更老的含义更接近于“无分布”——也就是说，无论假设的数据分布如何，都可以应用的技术。后者适用于 Spearman 的 rho，因为等级转换意味着无论您的原始分布是什么，它都会给出相同的结果。

我认为皮尔逊相关系数被称为参数的唯一原因是你可以用它来估计多元正态分布的参数。例如，二元正态分布有 5 个参数：两个均值、两个方差和相关系数。后者可以用皮尔逊相关系数来估计。

否则，你是绝对正确的，为了计算 Pearson，你不需要做出任何分布假设。只是当您假设正态分布时，与 Spearman 或 Kendall 相比，Pearson 相关性具有其他含义。 $\rho$

我认为最简单的答案是 Spearmen 的 rho 测试使用序数数据（可以排名但不告诉你任何关于数字之间的间隔的数字，例如 3 种口味的冰淇淋排名 1、2 和 3，但这只会告诉你哪个味道是首选而不是多少）。序数数据不能用于参数测试。

Pearson 的 r 检验使用区间或比率数据（具有固定区间的数字，例如秒、千克、毫米）。1 毫米不仅小于 5 毫米，而且您确切地知道多少。这种类型的数据可用于参数测试。

其它你可能感兴趣的问题

上一篇从多个变量创建质量指数以实现排名排序下一篇多元时间序列预测的支持向量回归