python-3.x - pyspark 2. /需要帮助以执行具有巨大数据帧的操作

我有一个庞大的数据集（1 TB），其中包含90亿个不同的ID，而我开发的脚本永无止境。

我的数据集中有一个ID的样本：

    ID  day   location1 location2 
    a   05/01    Rome     Paris
    a   08/01    Zurich   Amsterdam
    a   09/01    None     Rome

我想要的是什么

    a   05/01    Rome       Paris
    a   06/01    Paris      Paris
    a   07/01    Paris      Paris
    a   08/01    Zurich     Amsterdam
    a   09/01    Amsterdam  Rome

如示例所示，我需要为每个用户添加所有缺少的日期，并考虑到在我没有任何记录的那几天该用户没有移动。

有人想有效解决这个问题吗？

谢谢

pyspark 2. /需要帮助以执行具有巨大数据帧的操作

0 个答案: