是否有可以获取分页信息的Web抓取库?

时间:2013-12-04 13:44:49

标签: html web-scraping

我想知道是否有与页面交互的网页抓取库(尚未选择语言,它将取决于库)?

我的意思是,例如我们有多个页面分页的信息,是否可以找到一个与网页交互并获取所有信息的库?

2 个答案:

答案 0 :(得分:3)

任何语言都可以做到这一点,并且有很多适合的框架。考虑允许您使用XPath或CSS选择链接的框架,然后对其运行“单击”方法。请注意,执行此操作的框架通常不会执行任何单击 - 它们只是在高度简化的浏览器环境中按照链接进行操作。单击分页链接时,此功能非常有用。

  • 对于PHP,请考虑Goutte - 我正在使用它进行抓取,因为它是由Guzzle提供的,它非常强大。
  • 对于Python,请考虑Scrapy。我自己没有用过它,但在这个网站上提到了很多。
  • 但是,如果您不需要任何编程接口,请查看Import.io - 他们有一个可能感兴趣的免费应用程序。

也就是说,有些网页使用JavaScript进行分页。一般来说,这是不必要的,但是如果你想要抓住这些网站,你需要在底层的AJAX调用上使用一个简单的刮刀,或者你需要使用无头浏览器,以便你可以执行JavaScript 。这要慢得多,因为它更复杂。

答案 1 :(得分:1)

cURL怎么样?

您可以直接从命令行或使用(几乎)任何现代编程语言来使用它。

相关问题