如何使用pyspark

时间:2018-11-13 16:08:32

标签: python pyspark timestamp unix-timestamp pyspark-sql

我有一个带有时间戳值的数据帧,像这样一个:2018-02-15T11:39:13.000Z 我想使用Pyspark以UNIX格式使用它。

我尝试了类似data = datasample.withColumn('timestamp_cast', datasample['timestamp'].cast('date'))之类的方法,但是由于我仅在源中包含毫秒信息时才得到日/月/年的信息,所以我丢失了很多信息。

结果:2018-02-15

是否有获取unix格式并保持精度的想法?谢谢!

1 个答案:

答案 0 :(得分:2)

您可以通过以下方式使用内置unix_timestamp

from pyspark.sql.functions import unix_timestamp
df = df.withColumn('unix', unix_timestamp('timestamp'))

df = df.selectExpr('unix_timestamp(timestamp)')