pd 是一个 panda 模块,是读取 excel 的一种方式,但它在我的集群中不可用。我想在没有 pd 模块的情况下阅读 excel。Code1 和 Code2 是我在 pyspark 中想要的两个实现。
代码 1:读取 Excel
pdf = pd.read_excel(Name.xlsx)
sparkDF = sqlContext.createDataFrame(pdf)
df = sparkDF.rdd.map(list)
type(df)
想要在没有 pandas 模块的情况下实现
代码 2:从数据框 df 中的列 colname 获取字符串列表
stringsList = []
columnList = list(df[colname])
for i in range(len(columnList)):
if type(columnList[i]) != float:
text = columnList[i]
stringsList.append(text.lower())
else:
stringsList.append(u'')
return stringsList
我想在 pyspark 中实现这个。