美丽的汤和正则表达式

时间:2018-06-20 01:08:16

标签: python regex beautifulsoup

我正在使用漂亮的汤解析页面。我正在尝试查找并提取在页面上也具有超链接的电子邮件地址。

到目前为止,我已经尝试了下面的代码,但是它返回了整个标签,而我只是试图提取标签的文本部分。即what_im_trying_to_extract@something.com。页面上的电子邮件地址是唯一带有@符号的电子邮件地址。

soup.select("a[href*=@]")
returns: [<a class="hrTbp " href="mailto:something@something.com">what_im_trying_to_extract@something.com</a>]

我试图提取的是what_im_trying_to_extract@something.com

任何帮助将不胜感激

1 个答案:

答案 0 :(得分:1)

尝试

soup.select("a[href*=@]")[0].text