正交、相关和独立之间的关系是什么?

机器算法验证 相关性 独立
2022-01-21 18:32:07

我读过一篇文章说,当使用计划的对比来找到单向方差分析不同的均值时,对比应该是正交的,以便它们不相关并防止 I 型错误被夸大。

我不明白为什么正交在任何情况下都意味着不相关。我找不到对此的视觉/直观解释,所以我试图理解这些文章/答案

https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf

正交在统计学中是什么意思?

但对我来说,它们相互矛盾。第一个说如果两个变量不相关和/或正交,那么它们是线性独立的,但是它们线性独立的事实并不意味着它们是不相关和/或正交的。

现在在第二个链接上,有一些答案表明“正交意味着不相关”和“如果 X 和 Y 是独立的,那么它们是正交的。但反过来不是真的”。

第二个链接中的另一个有趣的评论指出,两个变量之间的相关系数等于这些变量对应的两个向量之间夹角的余弦,这意味着两个正交向量是完全不相关的(这不是第一篇文章索赔)。

那么独立性、正交性和相关性之间的真正关系是什么?也许我错过了一些东西,但我不知道它是什么。

3个回答

独立性是一个统计概念。如果两个随机变量 和Y的联合分布是边际分布的乘积,则 如果每个变量的密度为,或者更一般地为 其中表示每个随机变量的累积分布函数。XY

f(x,y)=f(x)f(y)
f
F(x,y)=F(x)F(y)
F

相关性是一个较弱但相关的统计概念。两个随机变量的(皮尔逊)相关是标准化变量乘积的期望值,即 如果则 变量不相关可以证明,两个独立的随机变量必然不相关,反之则不然。

ρ=E[XE[X]E[(XE[X])2]YE[Y]E[(YE[Y])2]].
ρ=0

正交性是一个起源于几何的概念,并被推广到线性代数和相关的数学领域。在线性代数中,两个向量的正交性定义在内积空间中,即具有内积的向量空间,作为条件 内积可以用不同的方式定义(导致不同的内积空间)。如果向量以数字序列的形式给出,,那么典型的选择是点积uvu,v

u,v=0.
u=(u1,u2,un)u,v=i=1nuivi


因此,正交性本身不是一个统计概念,您观察到的混淆可能是由于线性代数概念对统计的不同翻译:

a) 形式上,一个随机变量空间可以被认为是一个向量空间。然后可以以不同的方式在该空间中定义内积。一种常见的选择是将其定义为协方差: 由于如果协方差为零,则两个随机变量的相关性恰好为零,因此根据该定义,不相关性与正交性相同。(另一种可能性是将随机变量的内积简单地定义为乘积的期望值。)

X,Y=cov(X,Y)=E[(XE[X])(YE[Y])].

b) 并非我们在统计中考虑的所有变量都是随机变量。特别是在线性回归中,我们有自变量,这些自变量不被认为是随机的,而是预定义的。自变量通常以数字序列的形式给出,其正交性自然由点积定义(见上文)。然后,我们可以研究自变量是否正交的回归模型的统计结果。在这种情况下,正交性没有具体的统计定义,甚至更多:它不适用于随机变量。

回应 Silverfish 评论的补充:正交性不仅与原始回归量相关,而且与对比相关,因为(组)简单对比(由对比向量指定)可以看作是设计矩阵的变换,即集合将自变量转化为一组新的自变量。对比的正交性通过点积定义。如果原始回归量是相互正交的并且一个应用正交对比,那么新的回归量也是相互正交的。这确保了该组对比可以被视为描述方差的分解,例如分解成主效应和交互作用,这是ANOVA的基本思想。

由于根据变体 a),不相关性和正交性只是同一事物的不同名称,在我看来,最好避免在这个意义上使用该术语。如果我们想谈论随机变量的不相关性,我们就这么说吧,不要使用具有不同背景和不同含义的另一个词来使事情复杂化。这也释放了根据变体 b) 使用的术语正交性,这在讨论多元回归时非常有用。反过来,我们应该避免将术语相关性应用于自变量,因为它们不是随机变量。


Rodgers 等人的陈述在很大程度上与这一观点一致,尤其是当他们理解正交性与不相关性不同时。但是,他们确实将术语相关性应用于非随机变量(数字序列)。这仅对样本相关系数 具有统计意义我仍然建议避免使用该术语,除非数列被视为随机变量的实现序列。r

我在上面的文本中分散了两个相关问题的答案的链接,这应该可以帮助您将它们放入此答案的上下文中。

这是关系:如果 X 和 Y 不相关,则 XE[X] 与 YE[Y] 正交。

与独立不同的是,不相关是一个更强的概念,即独立将导致不相关,(非)正交和(不)相关可以同时发生。 例子

这学期我是概率的助教,所以我做了一个关于独立性、相关性、正交性的短视频。

https://youtu.be/s5lCl3aQ_A4

希望能帮助到你。

这是我的直观观点: 说 x 和 y 不相关/正交都是说知道 x 或 y 的值并不能预测另一个的方式——x 和 y 彼此独立——假设任何关系都是线性的。

相关系数表明对 x(或 y)的了解使我们能够预测 y(或 x)的程度。假设线性关系。

在平面中,沿 X 轴的向量可以在大小上发生变化,而不会改变其沿 Y 轴的分量——X 轴和 Y 轴是正交的,并且沿 X 的向量与沿 Y 的任何向量都正交。改变向量的大小不沿 X,将导致 X 和 Y 分量都发生变化。该向量不再与 Y 正交。

如果两个变量不相关,它们是正交的,如果两个变量是正交的,它们是不相关的。相关性和正交性只是不同的,尽管是等效的——代数和几何——表达线性独立概念的方式。作为类比,考虑通过绘图(几何)和行列式(代数)来解决两个变量中的一对线性方程。

关于线性假设——设 x 为时间,设 y 为正弦函数。在一个时期内,x 和 y 都是正交且不相关的,使用计算两者的常用方法。然而,关于 x 的知识使我们能够准确地预测 y。线性是相关性和正交性的一个重要方面。

虽然不是问题的一部分,但我注意到相关性和非正交性并不等同于因果关系。x 和 y 可以相关,因为它们都对第三个变量有一些(可能是隐藏的)依赖。夏季冰淇淋的消费量增加,人们在夏季更频繁地去海滩。两者是相关的,但都不会“导致”对方。有关这一点的更多信息,请参阅https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation