截断数据会降低相关性?

机器算法验证 相关性
2022-03-24 04:10:32

这是我遇到的一个论点:通过将样本限制在某个变量的某个范围内,两个变量之间的(皮尔逊)相关系数可能会降低。

我看不到逻辑。我认为它可能会增加或减少,这取决于手头的那个时间间隔的线性关系是否更强。

有什么线索吗?

2个回答

有很多方法可以查看它,但这是一个非常简单的方法:

想象一下,我们正在研究一个回归问题。两个变量之间的平方相关(r2) 是R2,决定系数,即1sϵ2Var(y). 当你限制范围x,你也减少了范围y, 所以Var(y)随之而来,而sϵ2(关于线路的噪音)应该几乎不会改变,因为它仍然有一个期望值σϵ2. 这是一个例子:

完整的 xy 图和截断的 x 范围

由于分数的分母减小而分子几乎没有变化,所以分数变大了,所以R2变小了,所以r2(x,y)因此|r|会更小。所以我们真的应该期望相关性的大小会减小。

考虑一个变量与另一个变量的二维图,限制一个变量的范围意味着只查看垂直或水平“切片”。所以我的直觉是点“云”的整体形状会更垂直或更水平,而不是“对角线”。垂直或水平的点云具有零相关性。所以对我来说,确实有一种直觉,即相关性可能会降低。

作为一个玩具示例,如果您的数据点是 (1,1)、(1,20) 和 (20,20),则相关性为 0.5,但如果将第一个变量的范围限制为 [0,10]剩下两个点 (1,1) 和 (1,20),相关性 =0。如果您将第二个变量限制为 [10,30],那么您将获得两个垂直对齐的点,并且相关性再次 = 0。