这是将 python 与 Spark 1.6.1 和数据帧一起使用。
我有想要转换为本地时间的 UTC 时间戳,但给定的行可能位于多个时区中的任何一个。我有一个“偏移量”值(或者,本地时区缩写。我可以很容易地将所有时间戳调整到一个区域或一个偏移量,但我不知道如何根据“ offset' 或 'tz' 列。
似乎有两种调整时间戳的主要方法:使用 'INTERVAL' 方法,或使用pyspark.sql.from_utc_timestamp.
这是一个例子:
data = [
("2015-01-01 23:59:59", "2015-01-02 00:01:02", 1, 300,"MST"),
("2015-01-02 23:00:00", "2015-01-02 23:59:59", 2, 60, "EST"),
("2015-01-02 22:59:58", "2015-01-02 23:59:59", 3, 120,"EST"),
("2015-03-02 15:59:58", "2015-01-02 23:59:59", 4, 120,"PST"),
("2015-03-16 15:15:58", "2015-01-02 23:59:59", 5, 120,"PST"),
("2015-10-02 18:59:58", "2015-01-02 23:59:59", 4, 120,"PST"),
("2015-11-16 18:58:58", "2015-01-02 23:59:59", 5, 120,"PST"),
("2015-03-02 15:59:58", "2015-01-02 23:59:59", 4, 120,"MST"),
("2015-03-16 15:15:58", "2015-01-02 23:59:59", 5, 120,"MST"),
("2015-10-02 18:59:58", "2015-01-02 23:59:59", 4, 120,"MST"),
("2015-11-16 18:58:58", "2015-01-02 23:59:59", 5, 120,"MST"),
...
]
(我意识到 offset 和 tz 列不一致 - 这不是真实数据)
df = sqlCtx.createDataFrame(data, ["start_time", "end_time", "id","offset","tz"])
from pyspark.sql import functions as F
这两个选项都符合预期:
df.withColumn('testthis', F.from_utc_timestamp(df.start_time, "PST")).show()
df.withColumn('testThat', df.start_time.cast("timestamp") - F.expr("INTERVAL 50 MINUTES")).show()
但是,如果我尝试将“PST”字符串替换为 df.tz,或者将“50”字符串替换为 df.offset.cast('string'),则会出现类型错误:
TypeError:“列”对象不可调用
我已经尝试过这方面的变化,但无济于事。