Question

我已阅读有关HOWTO Fetch Internet Resources Using urllib2的文档。但我无法理解如何使用数据参数。例子：

import urllib
import urllib2

url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
          'location' : 'Northampton',
          'language' : 'Python' }

data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()

无效：socket.error: [Errno 104] Connection reset by peer

但我从中理解的是，我可以命名一些选项/参数并给它们一个值。但我的问题是：我如何知道网站中的哪些参数？或者我怎么知道他们？

我已经＆＃34;玩了＃34;用：

response =urllib2.urlopen(url)
html=response.read() 
print html

要阅读网站，但在尝试了一些我认为可行的值后，我没有成功获取数据。在网站上有一个用于选择文件的按钮，以及一些用于选择输出的单选按钮。 我该怎么做？

我要提取的网页是this one。

Answer 1

使用urllib2来驱动表单等会导致沮丧。

https://pypi.python.org/pypi/mechanize是一个很好的起点。

http://www.sciprogblog.com/2012/01/scraping-data-with-python.html这家伙已经提供了大量有用的信息。这不会回答你的问题，但它应该引导你走上正确的道路。

祝你好运。

从网站获取数据

1 个答案: