这是我遇到的一个论点:通过将样本限制在某个变量的某个范围内,两个变量之间的(皮尔逊)相关系数可能会降低。
我看不到逻辑。我认为它可能会增加或减少,这取决于手头的那个时间间隔的线性关系是否更强。
有什么线索吗?
这是我遇到的一个论点:通过将样本限制在某个变量的某个范围内,两个变量之间的(皮尔逊)相关系数可能会降低。
我看不到逻辑。我认为它可能会增加或减少,这取决于手头的那个时间间隔的线性关系是否更强。
有什么线索吗?
有很多方法可以查看它,但这是一个非常简单的方法:
想象一下,我们正在研究一个回归问题。两个变量之间的平方相关() 是,决定系数,即. 当你限制范围,你也减少了范围, 所以随之而来,而(关于线路的噪音)应该几乎不会改变,因为它仍然有一个期望值. 这是一个例子:

由于分数的分母减小而分子几乎没有变化,所以分数变大了,所以变小了,所以因此会更小。所以我们真的应该期望相关性的大小会减小。
考虑一个变量与另一个变量的二维图,限制一个变量的范围意味着只查看垂直或水平“切片”。所以我的直觉是点“云”的整体形状会更垂直或更水平,而不是“对角线”。垂直或水平的点云具有零相关性。所以对我来说,确实有一种直觉,即相关性可能会降低。
作为一个玩具示例,如果您的数据点是 (1,1)、(1,20) 和 (20,20),则相关性为 0.5,但如果将第一个变量的范围限制为 [0,10]剩下两个点 (1,1) 和 (1,20),相关性 =0。如果您将第二个变量限制为 [10,30],那么您将获得两个垂直对齐的点,并且相关性再次 = 0。