sitemap - 一个对站点地图有智能支持的爬虫？

我试图定期抓住几百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点，似乎正确的方法是在找到它们的地方使用站点地图。首先，我正在寻找一种识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫是多么聪明。虽然有些网站完美地保留了他们的站点地图，但很多站点都没有。他们的站点地图可能已过期或采用非标准格式。每种情况都需要不同的方法。

所以问题是这是否已经在开源（或商业世界）中得到解决？有没有做得好或做得好的项目？我查看了一些我发现的开源爬虫，但无法找到这种级别的站点抓取智能。如果答案是否定的。这个问题还有其他好的资源吗？

一个对站点地图有智能支持的爬虫？

1 个答案: