我知道 pandas 使用存储在字典中的 numpy 数组“在幕后”工作。相比之下,考拉使用底层的 Spark 框架。这是否意味着在 Koalas 和 PySpark 数据帧之间来回切换不会产生额外的成本?
#convert to pyspark dataframe
df.to_spark()
#convert to kolas frame
koalas_df = ks.DataFrame(df)
编辑:我的意思是成本,它 ks.Dataframe(ks) 会产生额外的开销吗?例如,toPandas() 将 DataFrame 中的所有记录收集到驱动程序。因此,我们只能对一小部分数据执行 toPandas()。
由于我在 Koalas 和 Spark 之间切换,我想知道是否存在任何此类开销,或者 Koalas 是否在不收集驱动程序记录的情况下“解释”Spark 数据帧。目前我正在处理一小部分数据,但我对使用大量数据时的任何缺点感兴趣。