从NDB数据存储区聚合数据的最佳方法是什么?

时间:2013-08-22 04:00:32

标签: python google-app-engine app-engine-ndb

我将StatisticStore模型定义为:

class StatisticStore(ndb.Model):
  user = ndb.KeyProperty(kind=User)
  created = ndb.DateTimeProperty(auto_now_add=True)
  kind = ndb.StringProperty()
  properties = ndb.PickleProperty()

  @classmethod
  def top_links(cls, user, start_date, end_date):
    '''
    returns the user's top links for the given date range
    e.g.
    {'http://stackoverflow.com': 30,
     'http://google.com': 10,
     'http://yahoo.com': 15}
    '''
    stats = cls.query(
      cls.user == user.key,
      cls.created >= start_date,
      cls.created <= end_date,
      cls.kind == 'link_visited'
    )
    links_dict = {}
    # generate links_dict from stats
    # keys are from the 'properties' property
    return links_dict

我想拥有一个AggregateStatisticStore模型,该模型每天存储StatisticStore的聚合。它可以每天生成一次。类似的东西:

class AggregateStatisticStore(ndb.Model):
  user = ndb.KeyProperty(kind=User)
  date = ndb.DateProperty()
  kinds_count = ndb.PickleProperty()
  top_links = ndb.PickleProperty()

以下是真的:

start = datetime.datetime(2013, 8, 22, 0, 0, 0)
end = datetime.datetime(2013, 8, 22, 23, 59, 59)

aug22stats = StatisticStore.query(
  StatisticStore.user == user,
  StatisticStore.kind == 'link_visited',
  StatisticStore.created >= start,
  StatisticStore.created <= end
).count()
aug22toplinks = StatisticStore.top_links(user, start, end)

aggregated_aug22stats = AggregateStatisticStore.query(
  AggregateStatisticStore.user == user,
  AggregateStatisticStore.date == start.date()
)

aug22stats == aggregated_aug22stats.kinds_count['link_visited']
aug22toplinks == aggregated_aug22stats.top_links

我正在考虑使用taskqueue API运行cronjob。该任务将生成每天的AggregateStatisticStore。但我担心它可能会遇到内存问题?看作StatisticStore可能会为每个用户提供大量记录。

此外,top_links属性使事情变得复杂。我不确定在聚合模型中是否有它的属性是最好的方法。对该财产的任何建议都会很棒。

最终我只希望在约30天之前获得StatisticStore的记录。如果记录超过30天,则应汇总(然后删除)。节省空间并缩短可视化的查询时间。

编辑:每次记录StatisticStore时,它会创建/更新相应的AggregateStatisticStore记录。这样,所有cronjob所要做的就是清理。想法?

3 个答案:

答案 0 :(得分:1)

是的,mapreduce对此有好处。或者,您可以使用“后端”(现在模块)实例来运行您的cron作业。这可以减轻内存问题和工作长度问题。

另一种方法可能是将聚合移动到写入时间。由于这是每个用户,您可能会发现以这种方式消除了大量工作。 如果AggregateStatisticStore是每天,您可能希望使用DateProperty以外的其他内容来表示日期。 DateProperty当然会起作用,但是我觉得使用IntegerProperty更容易,因为int只是“一段时间以来的一天”。

答案 1 :(得分:0)

与汇总数据有点相关:

更改StatisticStoreAggregateStatisticStore以将user.key作为其父级。这意味着从每个模型中移除user = ndb.KeyProperty(kind=User),使用parent = user.key创建每个模型,并在parent = user.key中使用query()。 NDB擅长与同一父级聚合数据。

答案 2 :(得分:0)

如果AggregateStatisticScore彼此独立,则无需使用MapReduce。如果您可以为每个用户运行循环,只需为每个用户运行一个taskqueue进程并编写一条记录。它实际上只是“地图”阶段。

如果您可以进一步细分为更多并行任务,那么创建更多任务队列流程。 “并行化”它!