pyspark 2. /需要帮助以执行具有巨大数据帧的操作

时间:2018-07-05 15:55:12

标签: python-3.x pyspark apache-spark-sql

我有一个庞大的数据集(1 TB),其中包含90亿个不同的ID,而我开发的脚本永无止境。

我的数据集中有一个ID的样本:

    ID  day   location1 location2 
    a   05/01    Rome     Paris
    a   08/01    Zurich   Amsterdam
    a   09/01    None     Rome

我想要的是什么

    a   05/01    Rome       Paris
    a   06/01    Paris      Paris
    a   07/01    Paris      Paris
    a   08/01    Zurich     Amsterdam
    a   09/01    Amsterdam  Rome

如示例所示,我需要为每个用户添加所有缺少的日期,并考虑到在我没有任何记录的那几天该用户没有移动。

有人想有效解决这个问题吗?

谢谢

0 个答案:

没有答案