与 PCA 相比,在什么情况下使用随机投影来降低数据集的维数更有利?更有利的是,我的意思是保留数据集点之间的距离。
PCA 与随机投影
机器算法验证
主成分分析
降维
2022-03-07 16:50:10
3个回答
PCA 保持最佳投影。
使用随机投影的一些原因是:
- 对于非常高的维度,如果速度是一个问题,那么在大小矩阵上考虑, PCA 需要时间,而随机投影需要, 你在一个大小的子空间上投影.
- 使用稀疏矩阵甚至更快。
- 数据很可能是低维的,但不在线性子空间中。PCA 假设这一点。
- 随机投影对于降低高斯混合的维数也非常快。
- 如果数据非常大,您不需要将其保存在内存中进行随机投影,而对于 PCA,您需要。
- 一般来说,PCA 在相对低维的数据上效果很好。
如果只想近似点之间的成对欧几里德距离(这可能对像 t-SNE 这样的下游计算有用)但维度使得计算成对欧几里德距离的成本过高,Johnson-Lindenstrauss 引理使随机投影比 PCA 更适合。为了点在尺寸投影到保留点之间的欧几里得距离概率很高。我不知道 PCA 有任何类似的保证。
我要添加另一个对在线设置有效的原因:PCA 可能会为您提供一些初始训练数据的最佳预测,但随着时间的推移,它可能会变得任意更糟,并且新数据以“进化”分布到达。随机预测为您提供了一种针对这种情况的概率保证。当然,如果 d 随着时间的推移而增加,最终 k 可能会变得太低,但无论如何,在这种从大量数据流中不断学习的场景中,我相信随机投影是一种明智且有效的方法。
其它你可能感兴趣的问题