我应该从哪里开始使用python制作刮刀或机器人?

时间:2010-06-19 14:22:24

标签: python cgi

我在编程语言(python)中不是那么新,但我不清楚我将从哪里开始使用python制作机器人或刮刀?我应该学习cgi编程吗?或者刮刀是否仅使用python脚本运行?我应该为此构建服务器吗?对此没有任何线索......感谢您的帮助

3 个答案:

答案 0 :(得分:9)

答案 1 :(得分:2)

如果您尝试访问大量使用JavaScript的网站,您可能会更容易找到Selenium

Selenium是一个控制服务器上实际Web浏览器的服务器,以及一个允许您控制浏览器并检查其中页面的客户端库(包括Python端口)。

在配置(并弄清楚)服务器和客户端库(并确保在您的系统上有一个可用的浏览器)之前肯定会有更多的开销,但如果网站在JavaScript中做了很多东西,那么实际的刮擦代码可能不那么毛茸茸。

答案 2 :(得分:1)

屏幕抓取涉及许多正则表达式,以获取您想要的确切数据。您还想知道要分析的数据类型以及存储方式。

要获取页面,你需要利用诸如urllib(或urllib2)和正则表达式(re)之类的库或者使用的好脚本来完成你的脏工作(http://www.crummy.com/software/BeautifulSoup/

如果你想构建一个能够完成搜索引擎操作的纯机器人,你还需要构建一个足够聪明的僵尸程序,以便知道你不会持续ping同一个域(导致DOS攻击)。 / p>