BeautifulSoup:提取img alt数据

时间:2012-07-27 23:07:33

标签: python html beautifulsoup scrape

我有以下图片html,我正在尝试解析alt中的信息。目前我能够成功提取图像。

html(我目前解析的内容

<img class="rslp-p" alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver" src="http://i.ebayimg.com/00/$(KGrHqZ,!j!E5dyh0jTpBO(3yE7Wg!~~_26.JPG?set_id=89040003C1" itemprop="image" />

我从我解析的内容构建图像名称:

当前代码

def main(url, output_folder="~/images"):
         """Download the images at url"""
         soup = bs(urlopen(url))
         parsed = list(urlparse.urlparse(url))
         count = 0
         for image in soup.findAll("img"):
             print image
             count += 1
             print count
             print "Image: %(src)s" % image
             image_url = urlparse.urljoin(url, image['src'])
             filename = image["src"].split("/")[-1].split("?")[0].replace("$",'').replace(".JPG",".jpg").replace("~~_26",str(count)).lstrip("(")
             parsed[2] = image["src"]
             outpath = os.path.join(output_folder, filename)
             urlretrieve(image_url, outpath)

我想做的是提取

alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver"

我也想在提取图像时使用alt数据作为文件名。

1 个答案:

答案 0 :(得分:9)

for循环中,您只需执行

即可获得该循环
image.get('alt', '')

BeautifulSoup's documentation(“标签的属性”)对此进行了解释。