我是独立成分分析 (ICA) 的新手,对该方法只有初步了解。在我看来,ICA 类似于因子分析 (FA),但有一个例外:ICA 假设观察到的随机变量是非高斯独立分量/因子的线性组合,而经典 FA 模型假设观察到的随机变量是相关的高斯分量/因子的线性组合。
以上准确吗?
我是独立成分分析 (ICA) 的新手,对该方法只有初步了解。在我看来,ICA 类似于因子分析 (FA),但有一个例外:ICA 假设观察到的随机变量是非高斯独立分量/因子的线性组合,而经典 FA 模型假设观察到的随机变量是相关的高斯分量/因子的线性组合。
以上准确吗?
FA、PCA 和 ICA 都是“相关的”,因为它们三个都在寻找预测数据的基向量,以便您在此处最大化插入标准。将基向量视为封装线性组合。
例如,假设您的数据矩阵是一个 x矩阵,也就是说,您有两个随机变量,个观察值。然后假设您找到了的基向量。当您提取(第一个)信号时,(称为向量),它是这样完成的:
这只是意味着“将数据的第一行乘以 0.1,然后将数据的第二行减去 4 倍”。然后这给出了,这当然是一个 x向量,它具有您在此处最大化其插入标准的属性。
那么这些标准是什么?
二阶标准:
在 PCA 中,您正在寻找“最好地解释”数据方差的基向量。第一个(即排名最高的)基向量将是最适合您数据的所有方差的基向量。第二个也有这个标准,但必须与第一个正交,依此类推。(事实证明,PCA 的那些基向量只不过是数据协方差矩阵的特征向量)。
在 FA 中,它和 PCA 有区别,因为 FA 是生成的,而 PCA 不是。我已经看到 FA 被描述为“带有噪声的 PCA”,其中“噪声”被称为“特定因素”。尽管如此,总的结论是 PCA 和 FA 是基于二阶统计(协方差),以上没有。
高阶标准:
在 ICA 中,您再次寻找基向量,但这一次,您需要给出结果的基向量,使得该结果向量是原始数据的独立分量之一。您可以通过最大化归一化峰度的绝对值来做到这一点 - 一个四阶统计量。也就是说,您将数据投影在某个基向量上,并测量结果的峰度。你稍微改变你的基向量,(通常通过梯度上升),然后再次测量峰度,等等。最终你会遇到一个基向量,它给你一个具有最高可能峰度的结果,这是你独立的零件。
上面的上图可以帮助您将其可视化。您可以清楚地看到 ICA 向量如何对应于数据的轴(彼此独立),而 PCA 向量试图找到方差最大化的方向。(有点像结果)。
如果在上图中,PCA 向量看起来几乎与 ICA 向量对应,那只是巧合。这是另一个关于不同数据和混合矩阵的实例,它们非常不同。;-)
不完全的。因子分析在第二个时刻进行,并且真的希望数据是高斯的,这样似然比和类似的东西就不会受到非正态性的影响。另一方面,ICA 的动机是当你把东西加起来时,你会得到一些正常的东西,由于 CLT,并且真的希望数据是非正态的,以便可以从中提取非正态分量他们。为了利用非正态性,ICA 尝试最大化输入线性组合的四阶矩:
如果有的话,应该将 ICA 与 PCA 进行比较,后者将标准化输入组合的二阶矩(方差)最大化。