我遇到了一个场景,我有 10 个人的 10 个信号(所以 100 个样本),其中包含我需要传递给分类器的 14000 个数据点(维度)。我想减少这些数据的维度,而 PCA 似乎是这样做的方法。但是,我只能找到样本数量大于维度数量的 PCA 示例。我正在使用一个使用 SVD 查找 PC 的 PCA 应用程序。当我传递我的 100x14000 数据集时,返回了 101 台 PC,因此绝大多数维度显然被忽略了。该程序表明前 6 台 PC 包含 90% 的方差。
假设这 101 个 PC 基本上包含所有方差并且其余维度可以忽略不计,这是一个合理的假设吗?
我读过的一篇论文声称,使用与我自己相似(尽管质量略低)的数据集,他们能够将 4500 个维度减少到 80 个,保留 96% 的原始信息。论文详细介绍了所使用的 PCA 技术的细节,只有 3100 个样本可用,我有理由相信比实际执行 PCA 所用的样本更少(以消除分类阶段的偏差)。
我是否遗漏了什么,或者这真的是 PCA 与高维低样本数据集一起使用的方式吗?任何反馈将不胜感激。