主成分分析假设特征按高斯分布分布。这是否使主成分分析成为一种参数化方法?
我似乎找不到一个具体的答案来说明 PCA 确实是一种参数化方法。正如我们所知,参数化方法假设输入数据有某种分布。
主成分分析假设特征按高斯分布分布。这是否使主成分分析成为一种参数化方法?
我似乎找不到一个具体的答案来说明 PCA 确实是一种参数化方法。正如我们所知,参数化方法假设输入数据有某种分布。
为了从协方差或相关矩阵中提取主成分方向,我们不必做出任何分布假设。要看到这一点,请回想 PCA 解决的问题。对于协方差矩阵和所有向量我们希望最大化
条件是是单位向量,即。解是对应于最大特征值的协方差(或相关)矩阵的特征向量。第二个主成分是最大化的向量,该向量受垂直于第一个方向的附加条件的影响,同样适用于第三个、第四个和第百万个主成分(总是)。我们所需要的只是最大化器是单位向量并且垂直于先前的方向。
我们不需要提取的正态性,但我们肯定需要假设检验的正态性,例如,看看有多少方向是重要的。然而,值得注意的是,对于正态性,我们将 PCA 解释为具有恒定密度的椭圆体中的轴(回想一下多元正态分布的指数)。
PCA 与您的数据的正常性无关。原理是你在(高维)空间中有一堆数据点,你想看看哪些方向或主向量可以以最佳方式描述你的数据。它实际上与奇异值分解相同,可以应用于任何矩阵(此处为数据点矩阵)。
通过解释非参数的含义可能最好地回答这个问题。非参数方法通常是在执行随机变量的秩变换而不是使用实际参数的值时。例如,如果我们将随机变量的 x 值转换为排名值;1,2,3,4,...n,同时重新排序排列的 y 值以与其坐标 x 值位置一致,例如,这可能是 1,3,2,5,... n,7,然后计算排名坐标值的相关系数,我们将创建 Spearman 排名相关,它消除了原生随机变量的非线性,可以解释为消除所述非线性的乐观相关。因此,PCA 是对随机变量执行的操作,变量值本身没有排名,