我有一个 12 GB 的 .csv 文件,我正在尝试根据“AppName”下的列中的某个值过滤行
在 Pyspark 中执行此操作:
display(df.filter(df.AppName=="23954ec32332dfgd"))
仅产生 1 行,而不是至少 1400 行。
有任何想法吗 ?
我有一个 12 GB 的 .csv 文件,我正在尝试根据“AppName”下的列中的某个值过滤行
在 Pyspark 中执行此操作:
display(df.filter(df.AppName=="23954ec32332dfgd"))
仅产生 1 行,而不是至少 1400 行。
有任何想法吗 ?
你可以试试这个:
df1 = df.filter(df.AppName=="23954ec32332dfgd")
print df1.count()