我想从我从 csv 文件中读取的数据集中访问特定列的值。数据集存储在 pyspark RDD 中,我希望将其转换为 DataFrame。我正在使用以下代码:
from pyspark.sql import SQLContext
sqlc=SQLContext(sc)
df=sc.textFile(r'D:\Home\train.csv')
df=sqlc.createDataFrame(df)
但它显示错误:
Can not infer schema for type: <class 'str'>
df 的前 2 行是:
['"id","product_uid","product_title","search_term","relevance"',
'2,100001,"Simpson Strong-Tie 12-Gauge Angle","angle bracket",3']
我认为第一行正在制造这个问题。此外,我想创建存储从第二行到最后一行的值的数据框。(不是第一行,因为它将是标题)。我怎样才能做到这一点?我已经搜索过了,但找不到任何解决方案。提前致谢。