线性独立与统计独立(PCA 和 ICA)

机器算法验证 主成分分析 独立 独立成分分析
2022-04-04 14:58:48

我正在阅读这篇关于将 ICA 应用于基因表达数据的有趣论文。

作者写道:

[T] 这里没有要求 PCA 组件在统计上是独立的。

这是真的,但是 PC 是正交的,不是吗?

对于统计独立性与正交性或线性独立性之间的关系,我有点模糊。

值得注意的是,虽然 ICA 还提供了数据矩阵的线性分解,但统计独立性的要求意味着数据协方差矩阵以非线性方式去相关,而 PCA 的去相关是线性执行的。

我不明白。统计独立性如何导致缺乏线性?

问题:ICA 中组件的统计独立性与 PCA 中组件的线性独立性有何关系?

1个回答

这很可能是一些旧问题的重复,但我还是会简要回答。

对于非技术性的解释,我发现维基百科关于相关性和依赖性的文章中的这个数字很有帮助:

在此处输入图像描述

每个散点图上方的数字显示 X 和 Y 之间的相关系数。查看最后一行:在每个散点图上,相关性为零,即 X 和 Y 是“线性独立的”。然而它们显然 不是统计独立的:如果你知道 X 的值,你可以缩小 Y 的可能值。如果 X 和 Y 是独立的,这意味着知道 X 并不能告诉你关于 Y的任何信息。

ICA的目的是试图找到独立的组件。在 PCA 中,您只会得到不相关(“正交”)的组件;它们之间的相关性为零,但它们很可能是统计相关的。