SSIS模糊查找转换,用于识别不模糊的重复

时间:2017-06-23 12:52:06

标签: sql-server ssis duplicates fuzzy-comparison

我正在探索使用SSIS模糊查找转换来帮助识别数据库中的重复人员记录。因为我们可能有多个重复人员条目,所以我理解模糊分组不会起作用,因为这只会返回一个匹配。

我已经将Person表复制到DW dev环境两次(Person_Source和Person_Ref),我们运行SSIS包。

我已经使用模糊查找转换创建了包,并且为了测试已经设置了每次查找输出的最大匹配数' = 10和'相似度阈值' = 0.3。

在未来的某个时刻,我将添加条件逻辑以排除自我匹配' PersonID!= PersonID'但到目前为止试图保持简单。我很高兴目前看到输出中的所有内容。

如果我使用Surname作为唯一的查找列(为了保持简单),我希望得到一些常见姓氏的多个匹配,例如' Smith'以及一些类似的模糊匹配(&#39) ; Smyth',' Smythe'等)

但是,我每行只能得到1个匹配,它与自身完全匹配 _Similarity = 1 _Confidence = 1

我似乎无法让它与任何其他行实现任何模糊或完全匹配。

我也试过过列的组合。

我做了一些根本错误的事情吗?

我已经进行了一些演练 https://mindmajix.com/ssis/advanced-ssis-fuzzy-lookup-and-fuzzy-grouping 并阅读MS docs条目以确保我使用正确的数据类型等 https://docs.microsoft.com/en-us/sql/integration-services/data-flow/transformations/fuzzy-lookup-transformation

在SQL2012和VS2012 SSIS上

这里的第一篇文章(读者很长一段时间!)希望我能完全理解它!

0 个答案:

没有答案