我知道在 PCA 中,最大化方差是为了在减少数据维度的过程中尽可能多地保留可变性(或信息)”,我也阅读了上一个问题:https ://stackoverflow.com/问题/12395542/为什么我们要在主成分分析期间最大化方差
但是,我还是不太明白为什么要从矩的角度来最大化方差;例如,我们为什么不最大化高阶矩,比如说,联合最大化多个偶阶矩(根据一些期望的加权方案),为什么只使用二阶矩呢?
我知道在 PCA 中,最大化方差是为了在减少数据维度的过程中尽可能多地保留可变性(或信息)”,我也阅读了上一个问题:https ://stackoverflow.com/问题/12395542/为什么我们要在主成分分析期间最大化方差
但是,我还是不太明白为什么要从矩的角度来最大化方差;例如,我们为什么不最大化高阶矩,比如说,联合最大化多个偶阶矩(根据一些期望的加权方案),为什么只使用二阶矩呢?
一个答案是最大化方差可以最小化平方误差——一个可能更直接合理的目标。
假设我们想通过投影到单位向量的维数降低到 1 ,并且我们希望保持平方错误小:
这个优化问题可以转化为等价问题
另一个答案是 PCA 试图将高斯模型拟合到数据(平方误差和高斯模型密切相关)。如果您尝试将另一个模型拟合到您的数据中,您也会观察到其他时刻(例如,通过独立分量分析拟合模型时,峰度变得很重要)。
另一个答案是,“我们真的根本不关心最大化方差。” 毕竟,一旦我们得到 PC,如果我们愿意,我们将它们乘以 10,旋转它们等等。例如,如果 PC 系数非常相似,例如 0.25、0.30、0.27 等,我们只需重新-缩放系数,使它们接近 1.0,并将 PC 称为“总和”。显然,这破坏了受单位长度约束的方差最大化,从而质疑受单位长度约束的方差最大化是否具有任何相关性。
我们在最近发表于多变量行为研究的文章“使用相关性教学主成分”中提供了方差最大化的替代方法,https://www.ncbi.nlm.nih.gov/pubmed/28715259
我们没有将 PC 定义为使方差最大化的线性组合,而是总结了一个(有些模糊的)文献流,将它们定义为使线性组合与原始变量之间的均方相关性最大化的线性组合。那么既不需要方差最大化也不需要单位长度约束。允许重新缩放(甚至鼓励),也允许(非奇异)旋转;都提供与原始变量的最大平均平方相关。
YAA(又一个答案)。我们遇到的第一个分布是正态分布。在使用中的许多重要统计示例(线性回归,我在看你)中,一些正态性假设是默认的。在教授统计学时,正态分布是连续分布的第一个也是最重要的例子。联系是正态分布完全由它的均值和方差来表征,这是它的一阶和二阶矩。因此,在任何尝试根据矩来理解某些分布的情况下,如果正态分布是可能的结果之一,那么使用任何更高的矩都不会明智地工作。