在R

时间:2018-04-20 14:09:15

标签: r

我的数据框包含国家/地区列表。中华民国等国家的格式类似于“中华人民共和国”和“中华人民共和国”。

E.g。 '刚果,马其顿民主共和国,'马其顿共和国'等

对于此格式的每个国家/地区字符串,我希望将其名称及其标题转换为'在逗号周围,这样它就像通常那样读取,所以,

'刚果民主共和国刚刚转变为刚果民主共和国'

感谢。

1 个答案:

答案 0 :(得分:2)

您可以使用\\1执行此操作并对正则表达式进行分组。每组括号构成一个组,可以使用\\2 (\\w+)等来召回它们。在这种情况下,我们将第一个单词与(.*)分组并将其移到第二个或更多个组的后面按str <- c('Congo, Democratic Republic of the', 'Macedonia, Republic of', 'etc') sub("(\\w+), (.*)","\\2 \\1",str) # [1] "Democratic Republic of the Congo" "Republic of Macedonia" "etc" 分组的单词,我们不需要中间的逗号,因此它不包含在组中。

{{1}}
相关问题