皮尔逊系数是变量之间依赖关系的一个很好的指标吗?
数据挖掘
预测建模
统计数据
特征选择
相关性
2021-10-05 11:58:29
3个回答
正如您所展示的,皮尔逊系数显然不是衡量变量如何相互依赖的好方法。更好的衡量标准是距离相关性。距离相关性的一个很好的特性是距离相关性 0 意味着独立性。现实生活中可能发生的一个简单示例是,一个变量是另一个变量的平方,如您在第一张图片中所示。在这种情况下,皮尔逊相关性将为 0,但距离相关性将在 0.5 左右。我认为 Kagglers 根据 Pearson 相关性选择变量是错误的。
当您的问题中的某些变量很重要但 Pearson 表示几乎没有任何相关性时,您能举出实际的例子吗?
当然,当两个 RV 之间存在潜在的非线性关系时。Pearson 相关研究线性关系,因此低值不排除非线性关系。
如果您只考虑时间序列,您可以选择运行线性回归模型,将一个变量视为依赖变量。
如果您可以获得良好的 R² 和残差图,并通过任何转换来制作线性模型,那么您可能能够评估两者之间是否存在相关性。