如何在python中蜘蛛密码保护的网站?

时间:2010-07-04 01:39:49

标签: python web-crawler

目前我有一个用Java编写的蜘蛛登录供应商网站并蜘蛛网站。 (使用htmlunit)

它保持会话(cookie)甚至让我启用/禁用javascript等。

我还使用htmlparser(java)来帮助解析html并提取相关信息。

python有类似的东西吗?

2 个答案:

答案 0 :(得分:4)

Python有urllib2抓取页面,支持密码身份验证和Cookie。

还有HTMLParser用于提取html,但有些人更喜欢功能更多的BeatifulSoup

答案 1 :(得分:1)

Scrapy API使用urllib2 plus添加一些不同的解析器和辅助例程。