Question

我正在尝试使用lookahead来查找与短语开头的某个子表达式匹配但后来与某个子表达式不匹配的字符串。

例如，我想要这个

temp <- c("hello_i_am_in_the_park", "hey, park your car here")
grep("h.*park.*(?!here)", temp, perl=T,value=T)

返回：

[1] "hello_i_am_in_the_park"

但我得到了：

[1] "hello_i_am_in_the_park"  "hey, park your car here"

我认为这与。*的非贪婪有关，但似乎无法弄清楚如何修改表达式以使其更贪婪。

Answer 1

您需要将.*放入前瞻：

h.*park(?!.*here)
          ^^

这个正则表达式将以这种方式工作：

如果您的文字有换行符，且here可能位于park下方的另一行，则需要添加内联修饰符(?s)：

"(?s)h.*park(?!.*here)"

另一种正则表达式是在字符串的开头立即执行检查：

^(?!.*here)h.*park

请参阅regex demo。这样，我们会快速检查禁止的子字符串，如果存在，则不会搜索h，不会搜索.*和park。

最后但并非最不重要：如果您只需要匹配整个单词，请不要忘记添加\b字边界：

"^(?!.*\\bhere\\b)h.*\\bpark\\b"