在相关性,相关性和共线性方面有什么区别?

数据挖掘 相关性 共线性 皮尔逊相关系数
2021-10-08 18:18:36

一个网站说相关性是指因变量的增加/减少与自变量的增加/减少。共线性是指两个或多个自变量协同作用来解释因变量的变化。有人可以澄清这些术语吗?

2个回答

皮尔逊相关是没有进一步说明时通常的相关,特别是指线性关联。

ρXY=cov(X,Y)σXσY

在世界上,人们用“相关”来表示任何一种关联,但从统计学的角度来看这是错误的。在抛物线上对称排列点并通过该方程运行它们;尽管存在明显的关系,但您将获得零相关性。

还有 Spearman 相关性,它对值的等级进行 Pearson 相关性。

如果积分是 (0,1), (2,4), (3,3), Spearman 相关性是通过将 x-他们的等级和价值 y-他们的等级价值: (1,1), (2,3), (3,2). 然后通过 (Pearson) 校正的常用方程运行变换点。

区分“相关”和“相关”,前者是名词,后者是形容词。如果两个变量之间存在“相关”,则它们是“相关的”。

共线性似乎出现在回归的背景下,指的是相关的预测变量。相关的“多重共线性”是指与另一个预测器具有线性关系的多个回归预测器,就好像您可以将一个预测器回归到其他一些预测器并获得不错的准确性。当我们谈论相关预测变量时,“多重共线性”似乎是更常用的术语,因为“共线性”变量让我觉得与1 (考虑以米为单位的测量值),而多重共线性对我来说并不意味着完美的预测能力,除非指定了“完美的”多重共线性。

“共线”和“多重共线”是形容词;“共线性”和“多重共线性”是名词。

共线性通常是指两个或多个特征之间的任何线性关系或关联。

Correlation 和related 更普遍,可以指特征和响应之间的任何类型的关系,包括对数、指数和线性关联。

“相关”这个词是一个名词。它的强度是通过特定的公式来衡量的,该公式取决于数据类型和假设,例如参数或非参数。

“相关”一词是形容词,表示两个变量之间的松散关联,即不表示因果关系。