使用参数和读取结果的脚本

时间:2017-07-31 16:34:07

标签: python url download

我正在尝试编写一个脚本,该脚本接收带有某些参数的URL,从结果网页中读取新URL列表,然后在本地下载。我是编程新手,从未使用过Python 3,所以我有点失落。

以下是进一步解释的示例代码:

param1 = 
param2 = 
param3 = 

requestURL = "http://examplewebpage.com/live2/?target=param1&query=param2&other=param3"

html_content = urllib2.urlopen(requestURL).read()

#I don't know where to go from here
#Something that can find when a URL appears on the page and append it to a list 
#Then download everything from that list

#this can download something from a link:
#file = urllib.URLopener()
#file.retrieve(url, newfilelocation)

request-URL的输出是一个非常长的页面,可以是XML或JSON,并且有很多不一定需要的信息,因此需要某种形式的搜索才能找到需要从以后下载的URL 。页面上的URL直接指向所需的文件(以.jpg,.cat等结尾)。

如果您需要任何其他信息,请告诉我们!如果这令人困惑,我道歉。

另外,理想情况下我会将下载的文件全部转到为他们创建的新文件夹(sub-dir),文件名为当前日期和时间,但我想我可以自己解决这个问题。

2 个答案:

答案 0 :(得分:0)

看起来您正在尝试构建类似于网络爬虫的东西,除非您想要渲染内容。您应该从scrapy探索源代码,这将有助于理解其他人如何编写类似的逻辑。我建议使用requests库而不是urllib,因为它更容易。 python库内置了htmlJsonXML解析器。

如果页面类型未知,您应该检查内容类型标题以了解您尝试下载的内容类型。可以有替代策略,scrapy应该给你更多的想法。

希望这会有所帮助。

答案 1 :(得分:0)

我建议检查BeautifulSoup以解析返回的页面。 有了它,您可以循环浏览链接并轻松提取链接地址,并将它们附加到链接列表中。