Python在没有解析的情况下在HTML中查找URL

时间:2017-10-04 21:17:57

标签: python html web-scraping

我有一大块HTML文本,我需要以编程方式在此文本中搜索URL,但是,解析文档并不起作用。

例如,使用Beautiful Soup:

等解析文档
    #Find Links
    for link in soup.find_all('a', href=True):
        self.parseResult(link)

只会捕获表格中的网址:

<a href="#">Something</a>

但是,如果我想超越这一点,并在文档中捕获引用任何地方的网址,该怎么办?如:

<!-- See this URL for more information on the HTML code below: http://example.com -->

或者:

Go to the /FAQ page for more information

有谁知道我怎么会这样做?我正在考虑使用BeautifulSoup和Regex的组合,但是,我无法想到RegEx如何能够抓取任何相对URL。

有什么想法吗?

0 个答案:

没有答案
相关问题