Question

我正在尝试编写一个脚本，该脚本接收带有某些参数的URL，从结果网页中读取新URL列表，然后在本地下载。我是编程新手，从未使用过Python 3，所以我有点失落。

以下是进一步解释的示例代码：

param1 = 
param2 = 
param3 = 

requestURL = "http://examplewebpage.com/live2/?target=param1&query=param2&other=param3"

html_content = urllib2.urlopen(requestURL).read()

#I don't know where to go from here
#Something that can find when a URL appears on the page and append it to a list 
#Then download everything from that list

#this can download something from a link:
#file = urllib.URLopener()
#file.retrieve(url, newfilelocation)

request-URL的输出是一个非常长的页面，可以是XML或JSON，并且有很多不一定需要的信息，因此需要某种形式的搜索才能找到需要从以后下载的URL 。页面上的URL直接指向所需的文件（以.jpg，.cat等结尾）。

如果您需要任何其他信息，请告诉我们！如果这令人困惑，我道歉。

另外，理想情况下我会将下载的文件全部转到为他们创建的新文件夹（sub-dir），文件名为当前日期和时间，但我想我可以自己解决这个问题。

Answer 1

看起来您正在尝试构建类似于网络爬虫的东西，除非您想要渲染内容。您应该从scrapy探索源代码，这将有助于理解其他人如何编写类似的逻辑。我建议使用requests库而不是urllib，因为它更容易。 python库内置了html，Json和XML解析器。

如果页面类型未知，您应该检查内容类型标题以了解您尝试下载的内容类型。可以有替代策略，scrapy应该给你更多的想法。

希望这会有所帮助。

Answer 2

我建议检查BeautifulSoup以解析返回的页面。有了它，您可以循环浏览链接并轻松提取链接地址，并将它们附加到链接列表中。

使用参数和读取结果的脚本

2 个答案: