多行上的正则表达式标签

时间:2016-10-04 09:47:41

标签: python html regex

如何在多个/不同的行上提取这些标签之间的内容?

<link>
https://widget.websta.me/rss/n/bleh
</link>

我试过了:     content = findall(&#39;(。*)&#39;,web_page_contents,re.DOTALL) 但我接下来提到的不是这个^

1 个答案:

答案 0 :(得分:0)

您可以使用BeautifulSoup来执行此操作。它有一个非常好的documentation并且很容易。

以下代码可以使用:

import requests
from bs4 import BeautifulSoup

r = requests.get(webpage_url)
soup = BeautifulSoup(r.content, 'lxml')
for link in soup.find_all('link'):
    print link.text