R - 使用正则表达式从字符串中提取数字

时间:2015-12-09 13:54:59

标签: regex r stringr

如果可能,我想从一个带有一个表达式的字符串中提取带小数的数字。

例如,变换" 2,123.02"到" 2123.02" - 我目前的解决方案是:

paste(unlist(str_extract_all("2,123.02","\\(?[0-9.]+\\)?",simplify=F)),collapse="")

但我正在寻找的是str_extract_all中的表达式,它只是将它们自己绑定在一起作为向量。这可以通过正则表达式实现吗?

2 个答案:

答案 0 :(得分:6)

您可以尝试用空字符串替换逗号:

gsub(",", "", "2,123.02")
#[1] "2123.02"

注意:如果您只需要在数字之间替换逗号,则可以使用外观:

gsub("(?<=[0-9]),(?=[0-9])", "", "this, this is my number 2,123.02", perl=TRUE)
#[1] "this, this is my number 2123.02"

我使用sub而不是gsub进行了编辑,以防您使用逗号包含多个带有多个数字的字符串。如果您只有一个,sub是“足够的”。

NB2:您可以在str_extrac_all的结果上致电gsub,例如:

str_extract_all(gsub("(?<=[0-9]),(?=[0-9])", "","first number: 2,123.02, second number: 3,456", perl=T), "\\d+\\.*\\d*", simplify=F)
#[[1]]
#[1] "2123.02" "3456"   

答案 1 :(得分:2)

另一个选项是 tidyr 包中的extract_numeric

library(tidyr)
extract_numeric("2,123.02")

[1] 2123.02