从使用最新技术的网站刮取数据的提示

时间:2013-02-13 03:21:52

标签: parsing web-scraping

我正在尝试从asp,jsp站点废弃数据,这些站点使用ajax和session以及POST变量进行数据导航和显示。我已经阅读了各种文章和数据报废的SO,但没有多大帮助,我解析了一些修改标题的网站,但大多数网站显示我的自定义标题的标题重定向。解析来自站点的数据的正确方法是什么,这些数据是启用了javascript的,而asp中的站点具有viewstate变量。

1 个答案:

答案 0 :(得分:3)

如果你想学习网络刮刀,我建议你阅读那本书

enter image description here

Webbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURL

这真是这本专为网络抓取工具设计的专为PHP开发人员编写的书,但我认为该教程的基础知识将有助于任何开发人员了解网络漫游器的工作方式

我还通过电子邮件向作者发送了一些问题,他在几分钟后就回复了我 我强烈建议您阅读任何想要了解网页报道的书籍

相关问题