下载了很多很滑的数据

时间:2011-01-31 16:36:46

标签: html web-scraping

我可以访问大量数据的Web界面。这些数据通常由只需要少量商品的人访问。我工作的公司希望我下载整套。不幸的是,界面只允许你一次看到50个元素(数万个),并将数据分成不同的文件夹。

不幸的是,所有数据都有相同的url,它通过对aspx接口的ajax调用动态更新自身。由于需要进行身份验证,编写一个简单的curl脚本来获取数据很困难。

如何编写在页面中导航,触发ajax请求,等待页面更新,然后抓取数据的脚本?此问题以前是否已解决?有人能指出我的工具包吗?

任何语言都很好,我对大多数网络和脚本语言都有很好的工作知识。

谢谢!

3 个答案:

答案 0 :(得分:1)

如果您需要直接控制浏览器

您是否考虑使用WatiN等实际用于UI测试目的的工具,但我想您可以使用它在任何地方以编程方式提出请求并根据响应采取行动。

如果您只需要获取数据

但是既然你可以随心所欲地做任何事情,你就可以从桌面应用程序发出常规的Web请求并解析结果。您可以根据自己的需要进行自定义。并通过设置某些请求标头随意模拟AJax请求。

答案 1 :(得分:1)

我通常只使用像FiddlerLive HTTP Headers这样的程序,只关注幕后发生的事情。 99.9%的时间你会看到有一个querystring或REST调用,你可以模仿一个非常简单的模式。

答案 2 :(得分:1)