我使用 pySpark 并设置我的配置,如下所示:
spark = (SparkSession.builder.master("local[*]")
.config("spark.driver.memory", "20g")
.config("spark.executor.memory", "10g")
.config("spark.driver.cores", "30")
.config("spark.num.executors", "8")
.config("spark.executor.cores", "4")
.getOrCreate())
sc = spark.sparkContext
如果我然后运行 PCA:
from pyspark.ml.feature import PCA
pca = PCA(k=50, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(train)
只有一个线程处于活动状态,因此计算需要很长时间。
如何在 Spark 中并行化 PCA?
我在本地机器上运行,并没有在配置中配置集群。
我也没有安装推荐的 ml 包,因为警告
WARN LAPACK: Failed to load implementation from: com.github.fommil.netlib.NativeSystemLAPACK
出现。