在表格中查找类似的联系人姓名

时间:2014-05-08 13:23:00

标签: sql sql-server ssis

我正在执行数据清理,我的任务之一是删除类似的重复联系人。

示例:

BILL CROSBIE, BILL CROSBY, BILL CROSSBY; or KRISTEN HARRIS, KRISTIN HARIS. 

所以,没有确切的规则,但通过手动扫描,我可以说它们非常相似,必须重复。

任何人都可以提供一个如何使用SSIS做到这一点的例子。

我知道我可以使用模糊查找,但它需要一个正确的参考表或参考数据,然后将其与需要数据清理的表进行比较。但是,我是否有可能使用SSIS中的脚本组件工具来使用alogirthm来获取最匹配的字符。 C#代码会是什么样的?

我是使用SSIS的新手,并且没有太多经验。或者我可以在MSSQL中创建某种可以执行此操作的脚本吗?

1 个答案:

答案 0 :(得分:0)

我会使用SSIS模糊查找组件。我将使用您的Contacts表作为参考输入,并存储新索引(有效地创建输出表)。我将配置组件的高级页面以允许多个匹配并降低相似性阈值。

执行后,我会查询新的索引表,检查相似性和置信度分数。得分高于某个阈值(取决于您的数据)将表示重复。

相关问题