我了解 Bartlett 检验与确定您的样本是否来自方差相等的总体有关。
如果样本来自方差相等的总体,那么我们不能拒绝检验的原假设,因此主成分分析是不合适的。
我不确定这种情况(具有同方差数据集)的问题出在哪里。拥有一个所有数据的基本分布相同的数据集有什么问题?如果这种情况存在,我只是不认为有什么大不了的。为什么这会使 PCA 变得不合适?
我似乎无法在网上任何地方找到任何好的信息。有没有人有任何经验来解释为什么这个测试与 PCA 相关?
我了解 Bartlett 检验与确定您的样本是否来自方差相等的总体有关。
如果样本来自方差相等的总体,那么我们不能拒绝检验的原假设,因此主成分分析是不合适的。
我不确定这种情况(具有同方差数据集)的问题出在哪里。拥有一个所有数据的基本分布相同的数据集有什么问题?如果这种情况存在,我只是不认为有什么大不了的。为什么这会使 PCA 变得不合适?
我似乎无法在网上任何地方找到任何好的信息。有没有人有任何经验来解释为什么这个测试与 PCA 相关?
似乎有两个测试称为Bartlett's test。您引用的那个(1937 年)确定您的样本是否来自方差相等的总体。另一个似乎测试一组数据的相关矩阵是否是单位矩阵(1951)。更有意义的是,您不会对具有单位相关矩阵的数据运行 PCA,因为您只会取回原始变量,因为它们已经不相关。比较,例如,
针对问题标题。
巴特利特的球形检验,通常在 PCA 或因子分析之前进行,用于测试数据是否来自协方差为零的多元正态分布。(请注意,标准渐近版本的检验对于偏离多元正态性根本不稳健。人们可能会使用非高斯云的自举。)等价地说,原假设是总体相关矩阵是单位矩阵或者协方差矩阵是对角线的。
现在想象一下,多元云是完美的球形(即它的协方差矩阵与单位矩阵成比例)。那么1)任意维度都可以服务于主成分,所以PCA解不是唯一的;2)所有分量都有相同的方差(特征值),所以PCA不能帮助减少数据。
想象第二种情况,多元云是严格沿变量轴呈椭圆形的椭圆体(即,它的协方差矩阵是对角线:除对角线外,所有值都为零)。那么 PCA 变换隐含的旋转将为零;主成分是变量本身,只是重新排序和潜在地符号恢复。这是一个微不足道的结果:不需要 PCA 来丢弃一些弱维度来减少数据。
统计中的几个(至少三个,据我所知)测试以巴特利特命名。在这里,我们说的是 Bartlett 的球形度检验。