屏幕抓取交互式Web应用程序

时间:2012-07-05 13:38:26

标签: screen-scraping web-crawler

我需要屏蔽来自交互式网络应用程序的某些信息;更重要的是,一旦该Web应用程序的用户提交了(大概是POST)该表单,我就必须从表单中屏蔽该信息。

我有什么选择或选择?

解决方案必须是微创的,即我不能依赖Fiddler;它还需要占用很小的空间(即我无法安装太多的第三方应用程序或工具来完成此任务)。

将屏幕抓取的数据将与在桌面系统后台运行的C#应用​​程序绑定在一起。这是一个基于Windows的桌面系统。

我对基于非C#的解决方案完全开放,例如只要满足上述约束条件,就可以使用Ruby,Python等。

2 个答案:

答案 0 :(得分:0)

对于c#有htmlagilitypack,但如果是我,我会使用ruby mechanize或watir / selenium

答案 1 :(得分:0)

我不确定我是否理解你的要求,但是因为你了解Ruby,我相信使用Mechanize就足够了。它是一个非常强大的Web自动化库,并且易于设置。

您可以查看有关如何在Windows上进行设置的文章:

http://webmites.org/ruby-mechanize-web-scraping-made-easy/

您可以在此处参考Mechanize文档:

http://mechanize.rubyforge.org/GUIDE_rdoc.html