我正在阅读Shlens的主成分分析教程,2014 年,它提到了这两个概念:“二阶依赖”和“高阶依赖”。我找不到任何明确的解释。他们的意思是什么?
分析的目标是去相关数据,或者换句话说,目标是消除数据中的二阶依赖性。在图 6 的数据集中,变量之间存在高阶依赖关系。因此,去除二阶依赖性不足以揭示数据中的所有结构。
我正在阅读Shlens的主成分分析教程,2014 年,它提到了这两个概念:“二阶依赖”和“高阶依赖”。我找不到任何明确的解释。他们的意思是什么?
分析的目标是去相关数据,或者换句话说,目标是消除数据中的二阶依赖性。在图 6 的数据集中,变量之间存在高阶依赖关系。因此,去除二阶依赖性不足以揭示数据中的所有结构。
PCA 基于方差和协方差,(假设无均值变量)。这些是二阶依赖的度量,因为数据以 2 阶项的形式输入。在 PCA 之后,主成分之间的协方差为 0,因此二阶依赖已被移除。然而,仍然可能存在高阶依赖关系,例如对于某些、和。通过应用线性变换去除二阶依赖关系,PCA 以某种方式“揭示”该变换形式的二阶依赖关系,但它不会“揭示”高阶依赖关系。
在本文的上下文中,它们似乎使用“二阶依赖”来指代和相互正交的情况,以及当和不正交时的高阶依赖。找到正交轴是主成分分析的基础,因为您试图找到可以解释最大变化量的正交轴。他们的观点是,对于一些更复杂的数据集,寻找正交轴并没有真正的意义,因为它可能系统地解释了太少的信息。我认为用(可怕的)MS Paint 图片最容易解释这一点:

拿他们的图 6 来分析,他们的观点是,如果你有一个正交的和,那么这个系统可以解释摩天轮上只有 4 个位置。和和的一些组合(或和和的一些组合)之间还有许多其他位置需要解释它,这有点像需要和来解释信息(也就是高阶依赖)。在这种情况下,如果您知道您的数据描述了一个循环路径,合理的解决方案是使用描述它并避免 PCA(这是他们第一个建议的解决方案 - 使用)。但是你不能总是预测更高阶的关系。