解析由非字母字符分隔的列中的单词

时间:2018-06-21 19:01:41

标签: r rstudio

我有一列用“ /”或“-”分隔的单词。

|Column1|
|box-apple/bike-box|
|apple/orange-box-box-box|

我想解析重复的单词,只保留第一个实例和'/'或'-',因为它们很重要。

Output
|Column1|
|box-apple/bike|
|apple/orange-box|

可复制的数据集:

data.frame(x = c(('box-apple/bike-box'),('apple/orange-box-box-box')))

任何帮助将不胜感激。谢谢。

这甚至有可能吗?

好的,现在我可以使用它了:

sapply(table10$CONCEPT_NAME, function(x) paste(unique(unlist(strsplit(x, " - "))), collapse = " - "))

但是我只能从数据框中获取那一列。无论如何,我可以应用此功能并从数据框中获取所有列吗?

1 个答案:

答案 0 :(得分:0)

好了。这是使上述问题有效的代码:

sapply(table10$CONCEPT_NAME, function(x) paste(unique(unlist(strsplit(x, " - "))), collapse = " - "))

并从

返回原始数据
table10$CONCEPT_NAME <- sapply(table10$CONCEPT_NAME, function(x) paste(unique(unlist(strsplit(x, " - "))), collapse = " - "))

您只是覆盖了该列。