将img src废弃输出到base64

时间:2015-10-11 02:37:59

标签: python html python-2.7 beautifulsoup base64

我正试图抓住https://链接:

src ="https://static.daraz.com.bd/p/apple-1088-5942-1-catalog.jpg"

使用 BeautifulSoup4 Python库从以下代码中获取。

<div class="image-wrapper default-state">
      <img class="lazy image -loaded" alt="Macbook Air (MD711ZA/B) - Aluminum - Laptop - Dual-Core Intel Core i5 - 4GB RAM - 128GB HDD - 11.6&amp;#039;&amp;#039; LED - Intel HD Graphics 5000 - Mac OS X Mountain Lion 10.8" data-image-vertical="1" width="176" height="220" src="https://static.daraz.com.bd/p/apple-1088-5942-1-catalog.jpg" data-sku="AP113ELAA1XBNAFAMZ" data-placeholder="placeholder_daraz.jpg" style="display: inline-block;">
      <noscript>&lt;img src="https://static.daraz.com.bd/p/apple-1088-5942-1-catalog.jpg" width="176" height="220" class="image" /&gt;
      </noscript>
</div>

但我得到这样的输出:

data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7

获取原始src link的任何方式?

BeautifulSoup代码:

for image in soup.findAll('div', attrs={'class': 'image-wrapper default-state'}):
            print image.img['src']

相同的代码在其他站点中工作并获取src链接。但只是在这里它输出为base64格式。

1 个答案:

答案 0 :(得分:0)

将整个img代码转换为string,然后我发现他们使用的tag<data-img src=" ">

那么我只是简单地使用了tag并获得了预期的输出。

for image in soup.findAll('div', attrs={'class': 'image-wrapper'}):
    print image.img['data-src']