Question

我想识别字符串＆＃34; mystring＆＃34;在文本中（实际上是R代码），但确保它是变量名称：

它不应该是更长变量的一部分，例如＆＃34; thisismystring＆＃34;或者＆＃34; mystringisnice＆＃34;。我想这可以通过在＆＃34; mystring＆＃34;？
但它可以在一行的开头（例如＆＃34; \ nmystring＆＃34;）所以我们必须小心这种类型的异常

最好的方法是什么？

编辑：单元测试

pattern = "\\bmystring\\b"
identical(grepl(pattern = pattern, 
            x = c("thisismystring","mystringisnice","\nmystring", "mystring", "mystring=", "mystring(", " mystring","mystring\n", "6mystring", "mystring0", "= mystring(", "=mystring", 
"hop
mystring")),
      c(FALSE,          FALSE,           TRUE,         TRUE,        TRUE,        TRUE,         TRUE,       TRUE,        FALSE, FALSE,       TRUE,          TRUE,    TRUE))

Answer 1

只需使用\b（字边界）令牌：

\\bmystring\\b

单元测试

pattern = "\\bmystring\\b"
`==`(grepl(pattern = pattern, 
                x = c("thisismystring","mystringisnice","\nmystring", "mystring", "mystring=", "mystring(", " mystring","mystring\n", "6mystring", "mystring0", "= mystring(", "=mystring", 
                      "hop
                      mystring")),
          c(FALSE,          FALSE,           TRUE,         TRUE,        TRUE,        TRUE,         TRUE,       TRUE,        FALSE, FALSE,       TRUE,          TRUE,    TRUE))
# [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

正则表达式不在字母数字之间

1 个答案: