使用import.io抓取分页结果的最佳方法

时间:2015-06-24 20:51:30

标签: pagination web-scraping import.io

我想在邮轮行业内有几个网站。 例子: http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode=&dateCode=&shipCodeSearch=&portCode=

在某些情况下,如显示的第一个,结果页面跟随一个模式 - ?page_num = 1 ... 17。但是,结果的数量会随着时间的推移而变化。

在第二种情况下,URL不会随着分页而改变。

在一天结束时,我想要做的是将每个网站的结果合并到一个文件中。

问题1:除了方案1设置17个刮刀,然后积极观察结果是否会随着时间的推移而增长/缩小,还有其他选择吗?

Q2:我完全不知道如何从第二种情况中删除内容。

2 个答案:

答案 0 :(得分:1)

Q1-来自(import.io)的免费工具无法主动监视数据随时间的变化。您可以做的是将提取器提取的数据Bulk提取(17页,这将非常快)并添加到数据库中。每次进入数据库后,条目都可以被删除或标记为唯一。您可以在Excel中手动或以编程方式执行此操作。

他们的企业(数据即服务)可以为您做到这一点。

Q2-如果每个页面都没有唯一的URL,那么为您分页的唯一工具就是连接器。

答案 1 :(得分:1)

我建议你构建一个提取器以获得分页。此提取器的结果将是一个链接列表,每个链接对应一个页面。

这样,每次运行应用程序并更改页面数量时,您将始终获得所有页面。

之后,为每个页面拨打电话以获取所需的数据。

提取器1:获取页面 - 输入:第一个URL

提取器2:获取项目(数据) - 输入:提取器1的结果