如何使用HTMLParser从网站上抓取HTML标签

时间:2014-09-10 01:40:38

标签: python python-3.x html-parsing beautifulsoup python-requests

我能够在另一个堆栈溢出帖子中找到这个问题的答案,但我意识到我不知道如何实际使用它。我的代码以print命令结束 - 之后的所有内容都是我想要使用的。有人可以指导我,让我知道如何将这两个代码结合起来吗?谢谢!

from html.parser import HTMLParser
import requests
from bs4 import BeautifulSoup

urls = ["http://www.nerdwallet.com/the-best-credit-cards"]
for url in urls:
    website = requests.get(url)
    soup = BeautifulSoup(website.content)
    texts = soup.findAll(text=True)
    for item in texts:
            print(item)

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(url):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

0 个答案:

没有答案