我有一个从 pandas 数据框派生的 SQLContext 数据框,该数据框由几个数字列组成。我想使用pyspark.mllib.stats包执行多元统计分析。统计函数需要一个向量的 RDD。我无法将此数据帧转换为向量的 RDD。有没有办法转换数据框?
代码:
rdd = sqlCtx.createDataFrame(df_new)
summary = Statistics.colStats(rdd)
我从 df_new
df_new = df.applymap(lambda s: dic.get(s) if s in dic else s) #df is a pandas dataframe
我在摘要行收到 PY4JJava 错误。问题在于 rdd 的格式。