使用Regex从邮件中提取句子

时间:2019-12-16 17:25:39

标签: r regex email tags extract

我需要用正则表达式提取不带标签<br>的句子,但这给我带来了麻烦。

 (?<=Status:) (.*)[^<br>]

状态:i3 Naviera表示该容器已被释放<br>

这句话来自邮件

 "<html>\r\n<head>\r\n<meta http-equiv=\"Content-Type\"
 content=\"text/html; charset=utf-8\">\r\n</head>\r\n<body>\r\nStatus:
 i3 Naviera indicates that the container is already
 released<br>\r\nObservations:  data requested.<br>\r\n<br>\r\n<img
 src=\"http://test/logo/Logo2.png\">\r\n</body>\r\n</html>\r\n"

我只需要提取:

i3 Naviera表示容器已被释放

1 个答案:

答案 0 :(得分:0)

此正则表达式适用于您的内容:

(?<=Status: )(.*?)(?=<br>)

它将Status:与空格匹配,并在第一个<br>处停止,并且不包括在匹配项中。

请注意,使用正则表达式进行html解析要求html内容不会有太大变化。

相关问题