从网站获取数据

时间:2014-03-19 13:29:56

标签: python urllib2 urllib

我已阅读有关HOWTO Fetch Internet Resources Using urllib2的文档。但我无法理解如何使用数据参数。例子:

import urllib
import urllib2

url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
          'location' : 'Northampton',
          'language' : 'Python' }

data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()

无效:socket.error: [Errno 104] Connection reset by peer

但我从中理解的是,我可以命名一些选项/参数并给它们一个值。但我的问题是:我如何知道网站中的哪些参数?或者我怎么知道他们?

我已经"玩了#34;用:

response =urllib2.urlopen(url)
html=response.read() 
print html

要阅读网站,但在尝试了一些我认为可行的值后,我没有成功获取数据。在网站上有一个用于选择文件的按钮,以及一些用于选择输出的单选按钮。 我该怎么做?

我要提取的网页是this one

1 个答案:

答案 0 :(得分:0)

使用urllib2来驱动表单等会导致沮丧。

https://pypi.python.org/pypi/mechanize是一个很好的起点。

http://www.sciprogblog.com/2012/01/scraping-data-with-python.html这家伙已经提供了大量有用的信息。这不会回答你的问题,但它应该引导你走上正确的道路。

祝你好运。