为什么 Pearson 参数化和 Spearman 非参数化
机器算法验证
皮尔逊-r
非参数
斯皮尔曼罗
2022-01-24 20:30:29
3个回答
问题在于,如今“非参数”确实有两个不同的含义。维基百科中的定义适用于非参数曲线拟合,例如通过样条曲线或局部回归。另一个更老的含义更接近于“无分布”——也就是说,无论假设的数据分布如何,都可以应用的技术。后者适用于 Spearman 的 rho,因为等级转换意味着无论您的原始分布是什么,它都会给出相同的结果。
我认为皮尔逊相关系数被称为参数的唯一原因是你可以用它来估计多元正态分布的参数。例如,二元正态分布有 5 个参数:两个均值、两个方差和相关系数。后者可以用皮尔逊相关系数来估计。
否则,你是绝对正确的,为了计算 Pearson,你不需要做出任何分布假设。只是当您假设正态分布时,与 Spearman 或 Kendall 相比,Pearson 相关性具有其他含义。
我认为最简单的答案是 Spearmen 的 rho 测试使用序数数据(可以排名但不告诉你任何关于数字之间的间隔的数字,例如 3 种口味的冰淇淋排名 1、2 和 3,但这只会告诉你哪个味道是首选而不是多少)。序数数据不能用于参数测试。
Pearson 的 r 检验使用区间或比率数据(具有固定区间的数字,例如秒、千克、毫米)。1 毫米不仅小于 5 毫米,而且您确切地知道多少。这种类型的数据可用于参数测试。
其它你可能感兴趣的问题