python - 用于爬行流行论坛/公告板软件的工具

我开始编写爬虫以抓取vbulletin板。但是，我不是一个网络程序员（我可以做json api，但这不是真正的网络爬行），因此我不知道爬行的最佳方式是什么，以及可用的工具。

我更有能力编写爬虫，但我发现底层的HTML非常不规则，因此我不想成为更新版本的vbulletin中HTML更改结构的受害者。

我正在使用pycurl和美丽的汤写一个界面。但是，有没有更好的方法来做到这一点，是否有任何好的爬虫可用于vbulletin？（语言不是问题）。元论坛爬虫（适用于多种论坛类型）会更好。

如果你不能推荐一个，你能告诉我，如果你有经验，从我对底层HTML稳定性的期望，我是否应该担心新版本的vbulletin会破坏我的爬虫？

也许有更好的方法来提取vbulletin数据集？

进行HTML更改是webcrawling的继承问题。这就是为什么它应该只是绝对的最后手段。正如您所见，维护爬虫可能是一项艰巨的任务，因为HTML可以每天更改，并且没有guarentees。

因为通常搜索的数据是统一的，所以scrapy是一个很好的选择。 http://doc.scrapy.org/en/0.14/index.html

它使用xpath来选择元素，这相对容易维持生命。

即使有一个vbulletin特定的刮刀，它仍然依赖于HTML，它可以随意打破。因为vbulletin是一个平台，你可能很难刮掉它。我认为HTML只会在不应该经常发生的版本更新上发生变化。

移动API是否为您提供了所需的任何功能？ https://www.vbulletin.com/forum/content.php/367-API-Overview，我想这取决于每个网站的vbulletin设置。