python - Python屏幕刮整个网站

Python屏幕刮整个网站

时间：2011-09-30 20:06:56

标签： python html screen-scraping beautifulsoup

我想制作一个小程序，它将使用来自任何网站的每个单词 - 含义词它应该是在python中，我听说过BeautifulSoup，但我不太清楚如何将它用于此目的......小教程？：p 还是像正则表达式一样简单？喜欢： re.compile('<.*>(.*)<.*>') 所以括号之间的一切？新行和内容已经完成;）

提前帮忙，对不起的小英语抱歉...

2 个答案:

答案 0 :(得分：1)

Scrapy可让网络抓取变得轻松。它还有很好的文档，scrapy startproject命令将为您构建一个骨架项目。

答案 1 :(得分：1)

Mechanize是一个python库，允许您执行http请求，甚至提供一些解析html并提取您正在寻找的数据的能力。它的主要特点是它可以像浏览器一样处理身份验证和cookie等事情。

使用XML / HTML时，正则表达式并不理想（你会看到）。如果您更喜欢解析库，可以将BeautifulSoup与mechanize结合使用。学习XPath之类的东西也可以让你的生活变得更简单。

机械化和BeautifulSoup都有教程，所以开始阅读一些代码！