我有一个带有因变量和自变量的数据集。两者都不是时间序列。我有 120 个观察结果。相关系数为0.43
在这个计算之后,我为两个变量添加了一个列,每 12 个观察值的平均值,产生 2 个新列,包含 108 个观察值(对)。这些列的相关系数为 0.77
看来我以这种方式改善了相关性。允许这样做吗?我是否通过使用平均值来增加自变量的解释力?
我有一个带有因变量和自变量的数据集。两者都不是时间序列。我有 120 个观察结果。相关系数为0.43
在这个计算之后,我为两个变量添加了一个列,每 12 个观察值的平均值,产生 2 个新列,包含 108 个观察值(对)。这些列的相关系数为 0.77
看来我以这种方式改善了相关性。允许这样做吗?我是否通过使用平均值来增加自变量的解释力?
让我们看一下两个向量,第一个是
2 6 2 6 2 6 2 6 2 6 2 6
第二个向量是
6 2 6 2 6 2 6 2 6 2 6 2
计算您将得到的 Pearson 相关性
cor(a,b)
[1] -1
但是,如果您对值取连续对的平均值,则两个向量是相同的。相同的向量具有相关性 1。
4 4 4 4 4 4
这个简单的例子说明了你的方法的一个缺点。
编辑:更一般地解释它:相关系数按以下方式计算。
平均一些和一些会改变和之间的差异以及和之间的差异。
平均可以有吸引力或方便。它也可能是欺骗的来源,最坏的情况是欺骗,所以即使有明确的平均理由,也要小心行事。
这是一种情况,这不是一个好主意。考虑一下,通过仔细定义组,您(通常)可以将数据减少到两个汇总点,每个汇总点在两个变量上各不相同;然后您将实现与幅度的完美相关性。恭喜你,或者没有!这里的改进是虚假的,没有很好的独立理由。你不需要接近这种极端情况来接近危险。
在某些情况下,平均是有意义的。例如,如果季节性变化很少或没有兴趣,那么平均到年度值会创建一个简化的数据集,您可以在其中专注于这些年度值。
在各个领域,研究人员可能对完全不同尺度的相关性感兴趣,例如个人、县、州、国家的失业和犯罪之间的相关性(替换任何最有意义的术语)。
兴趣,通常也是推理麻烦的主要来源,是解释不同尺度或水平上发生的事情。例如,地区失业率和犯罪率之间的高度相关并不一定意味着失业者更有可能成为犯罪分子;您需要有关个人的数据才能清楚地说明这一点。数据提供可能会非常尴尬,因为数据只能在最不感兴趣的规模上可用,这可能是出于经济或保密问题。
我还注意到,许多测量首先通常是在小时间间隔和/或小空间间隔内进行平均,因此数据通常在任何情况下都是平均的。
在平均值相关的情况下,有必要注意辛普森悖论。