在变量的对数变换之前或之后进行相关性

机器算法验证 回归 相关性 对数 皮尔逊-r
2022-03-17 08:35:39

关于是否应该在进行对数变换之前或之后计算两个随机变量 X 和 Y 的皮尔逊相关性,是否有一般原则?是否有一个程序来测试哪个更合适?它们产生相似但不同的值,因为对数变换是非线性的。这是否取决于对数后 X 或 Y 是否更接近正态?如果是这样,为什么这很重要?这是否意味着应该对 X 和 Y 与 log(X) 和 log(Y) 进行正态性检验,并据此决定 pearson(x,y) 是否比 pearson(log(x),log( y))?

2个回答

因为是数据的单调变换,所以您也可以选择使用Spearman 秩相关( ) 而不必担心变换数据,因为您会得到log(X)log(Y)XYρSρS(X,Y)=ρS(log(X),log(Y))

Correlation(pearson) 测量两个连续变量之间的线性关系。(X,Y) 或 (log X, log Y) 没有这样的选择。变量的散点图可用于理解关系。

以下链接可能会回答有关正常性问题。关联