如何提取最后有.html的所有网址?

时间:2014-11-05 21:31:35

标签: python

from bs4 import BeautifulSoup
import requests


r = requests.get("xxx")
soup = BeautifulSoup(r.content)
for link in soup.find_all('html'):
     print link

这不适合我,有人可以帮忙吗?

2 个答案:

答案 0 :(得分:0)

for link in soup.find_all('a'):
    if '.html' in link['href']:
         print link

答案 1 :(得分:-1)

您可能希望使用正则表达式并搜索“href”属性。这样的东西可以帮助你入门。假设您正在搜索所有href属性

import re
from urllib2 import urlopen
from bs4 import BeautifulSoup
tags = soup.find_all(href = re.compile(r"\.html$"))

tags变量将是href属性以.html结尾的所有html标签的列表。现在,您可以遍历标记并提取href