python - Scrapy案例：项目的增量更新

请帮我解决以下案例：

想象一下典型的分类类别页面。包含项目列表的页面。当您点击内置页面上的项目时。现在我的抓取工具会抓取所有这些网址，进一步抓取这些网址以获取该项目的详细信息，检查初始种子网址是否为下一页。如果有，它会转到下一页并执行相同的操作。我将这些项目存储在sql数据库中。

让我们说3天后，种子网址中有新的主题，我想只删除新项目。可能的解决方案是：

在抓取每个项目时，我会检查数据库以查看该URL是否已被删除。如果有，我只是让Scrapy停止进一步爬行。问题：我不想每次都查询数据库。我的数据库非常庞大，最终会使爬行速度变得非常慢。
我尝试存储最后一个被抓取的URL并在开头传递它，当它找到这个last_scraped_url时，它只是停止了爬虫。不可能，因为抓取URL的异步性质不会按照从种子URL接收的顺序进行删除。（我尝试了所有方法，以有序的方式 - 但这根本不可能）

有人可以提出任何其他想法吗？过去三天我一直在努力奋斗。

感谢您的回复。

在试图给你一个想法之前......

我必须说我会先尝试你的数据库选项。数据库就是为此而创建的，即使您的数据库变得非常大，这也不应该使爬网速度变得非常慢。我学到了一个教训：＆＃34;首先做愚蠢的实施。之后，您尝试优化。＆＃34;大多数情况下，当您首先优化时，您只需优化错误的部分。

但是，如果你真的想要另一个想法...... Scrapy的默认设置不是两次抓取同一个url。因此，在开始抓取之前，您可以将已经删除的网址（3天前）放入Scrapy用于了解已访问过哪些网址的列表中。（我不知道该怎么做。）或者，更简单，在您的项目解析器中，您只需检查网址是否已被抓取并返回无或相应地刮取新项目。

Scrapy案例：项目的增量更新

1 个答案: