如何将 .csv 文件导入 pyspark 数据帧?我什至尝试在 Pandas 中读取 csv 文件,然后使用 createDataFrame 将其转换为 spark 数据帧,但它仍然显示一些错误。有人可以指导我完成这个吗?另外,请告诉我如何导入 xlsx 文件?我正在尝试将 csv 内容导入 pandas 数据帧,然后将其转换为 spark 数据帧,但它显示错误:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
我的代码是:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)