如果样本特征的方差较小,则相关系数较低。
例如,智商和学业成绩之间的相关性遵循这种模式。如果仅包括具有相似学业成绩的学生,则相关性较低。如果你包括来自不同学校类型的学生,它会变得更高。
有(数学)解释吗?
如果样本特征的方差较小,则相关系数较低。
例如,智商和学业成绩之间的相关性遵循这种模式。如果仅包括具有相似学业成绩的学生,则相关性较低。如果你包括来自不同学校类型的学生,它会变得更高。
有(数学)解释吗?
这可以解释如下。在数学上,给定两个变量 X 和 Y,它们的相关性定义为
covariance(X,Y)/(Standard Deviation(X)*Standard Deviation(Y)).
换句话说,相关性与两个变量的协方差成正比。等式中的除数对协方差具有比例效应,因此产生的相关性将介于 -1 和 +1 之间。
因此,在所有其他条件相同的情况下,降低协方差会降低相关性。具有相似学业成绩的效果是降低智商和学业成绩之间的协方差。例如,给定一个广泛的智商范围,如果学业成绩相似,那么学业成绩不会与智商共同变化,即成绩和智商之间存在相对随机的关系,即相关性接近于零表明(相对而言) 没有关系。
另一方面,考虑到智商的范围很广,如果学业成绩也分布在很宽的范围内,那么相关性仍然可以取介于 -1(负关系和 +1(正关系)之间的任何值,包括 0(表示没有关系)) )
回到你的问题,这里重要的是协方差的减少,而不是方差的减少。
是的,有一个数学的,虽然相当概念性的解释。直到现在我都对同样的问题感到困惑。
首先,我们为什么感到困惑:
1)如果您正在计算具有较低方差的样本中的相关系数(例如,所有具有相似的学术成就)但真实且完美地代表了它所属的较大人口(城市人口,具有较高的方差),相关系数应该一旦协方差和 SD 一起变化,就会非常相似。这可能适用于模拟数据。
2) 真实样本几乎永远不会完美地代表总体,因此样本的相关系数可能高于或低于总体,具体取决于您选择的总体的哪个部分(即,如果总体相关系数不完美,即小于1,当然)。然而,压倒性的趋势是较低方差样本的系数低于较高方差总体(或具有较高方差的另一个相同大小的样本)。为什么???
我的意见(和答案):噪音。
每个测量工具都有一定程度的误差和一定的精度。测量误差解释了前面提到的一小片尺度/连续数据中的系数降低。虽然误差的绝对大小始终相同,但它的相对大小会随着您“放大”而增加。“缩小方差”将接近误差本身的大小,从而增加噪声的贡献并降低测量的相关性(不是真正的相关性!),即使其他一切都受到控制。诸如问卷之类的生硬工具更容易受到不精确性的影响,其中一个测量点(例如毕业后)过于课程代表了各种各样的成就,并且可能具有模糊的界限(毕业后学习的任何课程都是毕业后课程吗?)。此外,人们经常使用皮尔逊相关系数来衡量这些关系,这是不恰当的,并且在有序数据的较低方差面前进一步导致系数衰减。
相关系数(我经常使用组内作为重测信度的度量)通常被定义为受试者间变异与总变异(受试者间+受试者内)的比率。如果与学科内变异相比,学科间变异(例如,具有非常不同学校类型的人)高,则相关系数会高。