hadoop - 如何在使用Spark的有状态操作updateStateByKey时保持实时

首先是虚构的用例。我们假设我有一组元组(user_id, time_stamp, login_ip)。我希望以5秒的粒度维护每个用户的最后一次登录IP。

使用Spark流，我可以使用updateStateByKey方法更新此地图。问题是，随着数据流不断涌现，每个时间间隔的RDD变得越来越大，因为可以看到更多的user_ids。在一段时间之后，地图将变得如此之大以至于维持它需要更长的时间，因此无法实现结果的实时传递。

请注意，这只是我提出来展示问题的一个简单示例。真正的问题可能更复杂，真正需要实时交付。

如何解决这个问题的任何想法（在Spark以及其他解决方案都会很好）？