自动将Scrapy-scraped数据提交给Github?

时间:2014-08-06 19:14:36

标签: heroku github scrapy

我有一个Python Scrapy蜘蛛,我想在Heroku或类似的时间间隔定期运行。 它生成一个JSON文件,我想提交给Github仓库。

鉴于Heroku或其他类似平台,如何将其设置为自动提交,运行后?

1 个答案:

答案 0 :(得分:0)

您可以编写一个项目管道来保存项目的静态列表。

为此管道提供一个名为spider_closed的函数,并使用调度程序将该函数作为spider_closed信号的信号处理程序附加。

在spider_closed中使用json.loads来序列化您的数据。将其保存到文件中。并将其提交给github。

这个repo有很好的代码示例:

https://github.com/dm03514/CraigslistGigs/blob/master/craigslist_gigs/pipelines.py

这似乎是一个用于git部分的好库:

https://pypi.python.org/pypi/GitPython/

HTH - 如果您需要更多帮助,我很乐意更新此回复。