查找R中2个数据集之间的公共部分字符串

时间:2019-04-25 04:50:35

标签: r

我有两个数据集-一个包含一百万家公司的列表,另一个包含15,000个公司的列表。我需要找到这两者共同的公司。 问题在于名称不完全相同,因此我需要进行部分匹配。 例如:在数据库1:ABC Industries中,在数据库2:ABC中。我可以使用R匹配这两行吗?

P.S。 -我是R的初学者,但愿意很快学习。

1 个答案:

答案 0 :(得分:0)

# short names
short <- c("ABC", "BCA")
# long names
long <- c("ABC industry", "TATA consultancy", "BFH printing", "HMC BCA", "ABC", "BCA corporation")

# using grep to find short names in long names column
long[grep(paste0(short, collapse = "|"), long)]
#> [1] "ABC industry"    "HMC BCA"         "ABC"             "BCA corporation"

reprex package(v0.2.1)于2019-04-25创建