独立成分分析和因子分析有什么关系?

机器算法验证 多元分析 因子分析 独立成分分析
2022-02-02 02:08:51

我是独立成分分析 (ICA) 的新手,对该方法只有初步了解。在我看来,ICA 类似于因子分析 (FA),但有一个例外:ICA 假设观察到的随机变量是非高斯独立分量/因子的线性组合,而经典 FA 模型假设观察到的随机变量是相关的高斯分量/因子的线性组合。

以上准确吗?

2个回答

在此处输入图像描述

FA、PCA 和 ICA 都是“相关的”,因为它们三个都在寻找预测数据的基向量,以便您在此处最大化插入标准。将基向量视为封装线性组合。

例如,假设您的数据矩阵是一个 x矩阵,也就是说,您有两个随机变量,个观察值。然后假设您找到了的基向量。当您提取(第一个)信号时,(称为向量),它是这样完成的:Z2NNw=[0.14]y

y=wTZ

这只是意味着“将数据的第一行乘以 0.1,然后将数据的第二行减去 4 倍”。然后这给出了,这当然是一个 x向量,它具有您在此处最大化其插入标准的属性。y1N

那么这些标准是什么?

二阶标准:

在 PCA 中,您正在寻找“最好地解释”数据方差的基向量。第一个(即排名最高的)基向量将是最适合您数据的所有方差的基向量。第二个也有这个标准,但必须与第一个正交,依此类推。(事实证明,PCA 的那些基向量只不过是数据协方差矩阵的特征向量)。

在 FA 中,它和 PCA 有区别,因为 FA 是生成的,而 PCA 不是。我已经看到 FA 被描述为“带有噪声的 PCA”,其中“噪声”被称为“特定因素”。尽管如此,总的结论是 PCA 和 FA 是基于二阶统计(协方差),以上没有。

高阶标准:

在 ICA 中,您再次寻找基向量,但这一次,您需要给出结果的基向量,使得该结果向量是原始数据的独立分量之一。您可以通过最大化归一化峰度的绝对值来做到这一点 - 一个四阶统计量。也就是说,您将数据投影在某个基向量上,并测量结果的峰度。你稍微改变你的基向量,(通常通过梯度上升),然后再次测量峰度,等等。最终你会遇到一个基向量,它给你一个具有最高可能峰度的结果,这是你独立的零件。

上面的上图可以帮助您将其可视化。您可以清楚地看到 ICA 向量如何对应于数据的轴(彼此独立),而 PCA 向量试图找到方差最大化的方向。(有点像结果)。

如果在上图中,PCA 向量看起来几乎与 ICA 向量对应,那只是巧合。这是另一个关于不同数据和混合矩阵的实例,它们非常不同。;-)

在此处输入图像描述

不完全的。因子分析在第二个时刻进行,并且真的希望数据是高斯的,这样似然比和类似的东西就不会受到非正态性的影响。另一方面,ICA 的动机是当你把东西加起来时,你会得到一些正常的东西,由于 CLT,并且真的希望数据是非正态的,以便可以从中提取非正态分量他们。为了利用非正态性,ICA 尝试最大化输入线性组合的四阶矩:

maxa:a=11ni[a(xix¯)]4

如果有的话,应该将 ICA 与 PCA 进行比较,后者将标准化输入组合的二阶矩(方差)最大化。