用于爬行流行论坛/公告板软件的工具

时间:2012-05-01 17:01:29

标签: python dataset vbulletin web-crawler

我开始编写爬虫以抓取vbulletin板。但是,我不是一个网络程序员(我可以做json api,但这不是真正的网络爬行),因此我不知道爬行的最佳方式是什么,以及可用的工具。

我更有能力编写爬虫,但我发现底层的HTML非常不规则,因此我不想成为更新版本的vbulletin中HTML更改结构的受害者。

我正在使用pycurl和美丽的汤写一个界面。但是,有没有更好的方法来做到这一点,是否有任何好的爬虫可用于vbulletin? (语言不是问题)。元论坛爬虫(适用于多种论坛类型)会更好。

如果你不能推荐一个,你能告诉我,如果你有经验,从我对底层HTML稳定性的期望,我是否应该担心新版本的vbulletin会破坏我的爬虫?

也许有更好的方法来提取vbulletin数据集?

1 个答案:

答案 0 :(得分:4)

进行HTML更改是webcrawling的继承问题。这就是为什么它应该只是绝对的最后手段。正如您所见,维护爬虫可能是一项艰巨的任务,因为HTML可以每天更改,并且没有guarentees。

因为通常搜索的数据是统一的,所以scrapy是一个很好的选择。 http://doc.scrapy.org/en/0.14/index.html

它使用xpath来选择元素,这相对容易维持生命。

即使有一个vbulletin特定的刮刀,它仍然依赖于HTML,它可以随意打破。因为vbulletin是一个平台,你可能很难刮掉它。我认为HTML只会在不应该经常发生的版本更新上发生变化。

移动API是否为您提供了所需的任何功能? https://www.vbulletin.com/forum/content.php/367-API-Overview,我想这取决于每个网站的vbulletin设置。

相关问题