我在理解为 Pyspark 管道创建自定义转换器时遇到了一些麻烦。
我正在编写一个自定义转换器,它将采用数据框列 Company 并删除杂散逗号:
from pyspark.sql.functions import *
class DFCommaDropper(Transformer):
def__init__(self, *args, **kwargs):
self.name = CommaDropper
def transform(self,df):
df = df.withColumn('Company', regexp_replace('Company',',','')
return df
上面的代码显然是错误的。我不确定什么/如何初始化它,然后如何在转换函数中使用初始化的类实例。
在此先感谢您的帮助。