日志会修改两个变量之间的相关性吗?

机器算法验证 相关性 数据转换 对数
2022-01-21 04:43:35

我将日志应用于两个非常倾斜的变量,然后进行相关性。对数前相关性为 0.49,对数后相关性为 0.9。我认为日志只会改变比例。这怎么可能?下面是他们每个人的图表。也许我没有应用正确的转换?

在此处输入图像描述 在此处输入图像描述

1个回答

有多种不同类型的相关性。最常见的是皮尔逊相关系数,它衡量两个向量之间的线性相关程度。也就是说,它本质上是通过散点图绘制一条直线并计算其斜率。如果您记录日志,这当然会改变!

如果您对在对数等单调变换下不变的相关性度量感兴趣,请使用Kendall 等级相关性Spearman 等级相关性这些仅适用于rank,在单调变换下不会改变。

这是一个示例 - 请注意 Pearson 相关性在记录后如何变化,而 Kendall 和 Spearman 相关性则不会:

> set.seed(1)
> foo <- exp(rnorm(100))
> bar <- exp(rnorm(100))
> 
> cor(foo,bar,method="pearson")
[1] -0.08337386
> cor(log(foo),log(bar),method="pearson")
[1] -0.0009943199
> 
> cor(foo,bar,method="kendall")
[1] 0.02707071
> cor(log(foo),log(bar),method="kendall")
[1] 0.02707071
> 
> cor(foo,bar,method="spearman")
[1] 0.03871587
> cor(log(foo),log(bar),method="spearman")
[1] 0.03871587

以下较早的问题讨论了 Kendall 和 Spearman 的相关性:Kendall Tau 还是 Spearman 的 rho?