皮尔逊系数是变量之间依赖关系的一个很好的指标吗?

数据挖掘 预测建模 统计数据 特征选择 相关性
2021-10-05 11:58:29

一旦有人问我如何计算两个时间序列之间的相关性。由于我是数据科学的新手,我回答说:“我只会计算 Pearson 相关系数”。这不是一个好的答案,因为如下图所示,两个变量之间的依赖关系可能不是线性的,皮尔逊系数可能接近0(抛物线,圆)。我看到 Kaggle 上的人总是从相关矩阵开始,丢弃不相关的数据。

我的问题是:皮尔逊系数是否始终是衡量变量之间相关性的良好指标,我们应该始终依赖它?当您的问题中的某些变量很重要但 Pearson 表示几乎没有任何相关性时,您能举出实际的例子吗?

人工生成的数据

3个回答

正如您所展示的,皮尔逊系数显然不是衡量变量如何相互依赖的好方法。更好的衡量标准是距离相关性距离相关性的一个很好的特性是距离相关性 0 意味着独立性。现实生活中可能发生的一个简单示例是,一个变量是另一个变量的平方,如您在第一张图片中所示。在这种情况下,皮尔逊相关性将为 0,但距离相关性将在 0.5 左右。我认为 Kagglers 根据 Pearson 相关性选择变量是错误的。

当您的问题中的某些变量很重要但 Pearson 表示几乎没有任何相关性时,您能举出实际的例子吗?

当然,当两个 RV 之间存在潜在的非线性关系时。Pearson 相关研究线性关系,因此低值不排除非线性关系。

如果您只考虑时间序列,您可以选择运行线性回归模型,将一个变量视为依赖变量。

如果您可以获得良好的 R² 和残差图,并通过任何转换来制作线性模型,那么您可能能够评估两者之间是否存在相关性。