在R中添加以匹配模糊字符串

时间:2016-12-06 10:30:39

标签: r excel stringdist

我有两张excel表,上面有来自两家不同保险公司的保险索赔数据。我需要查找在两个提供商下提交索赔的个人案例。

如果它们看起来很可能是相同的名字,我希望有一些配对名称的东西,但如果它在另一张表中找不到类似的名字,则什么都不做。根据我的阅读,我认为我需要使用模糊字符串(也许是DL距离)。我知道R有一个字符串距离函数,adist,但我很难学会正确使用它。

举个例子:

TRUE/FALSE

所以在这里应该认识到Emily S. Lo和Emily Lo是同一个人,Clara Smith和Ms.Smith一样,给我一个包含他们名字和信息的清单。我该怎么做?

我试着复制这个人的所作所为: http://bigdata-doctor.com/fuzzy-string-matching-survival-skill-tackle-unstructured-information-r/ 我尝试了他们的数据,复制/粘贴他们的代码,我一直得到一个0x0的结果。

0 个答案:

没有答案
相关问题