我有一大块HTML文本,我需要以编程方式在此文本中搜索URL,但是,解析文档并不起作用。
例如,使用Beautiful Soup:
等解析文档 #Find Links
for link in soup.find_all('a', href=True):
self.parseResult(link)
只会捕获表格中的网址:
<a href="#">Something</a>
但是,如果我想超越这一点,并在文档中捕获引用任何地方的网址,该怎么办?如:
<!-- See this URL for more information on the HTML code below: http://example.com -->
或者:
Go to the /FAQ page for more information
有谁知道我怎么会这样做?我正在考虑使用BeautifulSoup和Regex的组合,但是,我无法想到RegEx如何能够抓取任何相对URL。
有什么想法吗?