作为大数据分析项目的一部分,我正在努力,
我需要使用云计算系统对一些数据执行 PCA。
就我而言,我使用 Amazon EMR 来完成这项工作,尤其是 Spark。
撇开“如何在火花中执行 PCA”问题不谈,我想了解在基于云的架构上计算 PC 时事情是如何在幕后工作的。
例如,确定数据的 PC 的方法之一是计算特征的协方差矩阵。
例如,当使用基于 HDFS 的架构时,原始数据分布在多个节点上,我猜每个节点都会收到 X 条记录。
那么当每个节点只有部分数据时,如何计算协方差矩阵呢?
这只是一个例子。我试图找到一些文件或文档来解释所有这些幕后巫术,但找不到任何足以满足我需求的东西(可能是我糟糕的谷歌技能)。
所以我基本上可以总结我的问题\需要如下:
1. 云架构上的分布式 PCA 是如何工作的
最好是一些学术论文或其他种类的解释,其中也包含一些视觉效果
2、D-PCA的Spark实现
Spark 是如何做到的?他们的架构中是否有任何“扭曲”以更有效地执行此操作,或者 RDD 对象的使用如何有助于提高效率?等等。
即使是关于它的在线课程的演示也会很棒。
提前感谢任何可以提供一些阅读材料的人。