使用python从网页下载图像

时间:2013-03-11 23:18:00

标签: python html-parsing web-crawler

我正在尝试编写一个从网页上下载图像的python脚本(我正在使用美国国家航空航天局当天页面的图片),每天都会发布一张新图片,文件名不同。

所以我的解决方案是使用HTMLParser解析html,寻找“jpg”,并将图像的路径和文件名写入HTML解析器对象的属性(命名为“output”,请参阅下面的代码)。

我是python和OOP的新手(这是我有史以来第一个真正的python脚本),所以我不确定这是不是通常的做法。任何建议和指针都是受欢迎的。

这是我的代码:

# Grab image url
response = urllib2.urlopen('http://apod.nasa.gov/apod/astropix.html')
html = response.read() 

class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
    # Only parse the 'anchor' tag.
    if tag == "a":
       # Check the list of defined attributes.
       for name, value in attrs:
           # If href is defined, print it.
           if name == "href":
               if value[len(value)-3:len(value)]=="jpg":
                   #print value
                   self.output=value #return the path+file name of the image

parser = MyHTMLParser()
parser.feed(html)
imgurl='http://apod.nasa.gov/apod/'+parser.output

1 个答案:

答案 0 :(得分:3)

要检查字符串是否以"jpg"结尾,您可以使用.endswith()代替len()并切片:

if name == "href" and value.endswith("jpg"):
   self.output = value

如果网页内的搜索更复杂,您可以使用lxml.htmlBeautifulSoup代替HTMLParser,例如:

from lxml import html

# download & parse web page
doc = html.parse('http://apod.nasa.gov/apod/astropix.html').getroot()

# find <a href that ends with ".jpg" and 
# that has <img child that has src attribute that also ends with ".jpg"
for elem, attribute, link, _ in doc.iterlinks():
    if (attribute == 'href' and elem.tag == 'a' and link.endswith('.jpg') and
        len(elem) > 0 and elem[0].tag == 'img' and
        elem[0].get('src', '').endswith('.jpg')):
        print(link)