忽略某些单词的模糊分组

时间:2014-05-28 16:37:21

标签: sql ssis business-intelligence

我正在创建一个SSIS包,用于在两个不同的数据库中查找类似的客户。 我创建了一个使用模糊分组的联合,我已将阈值设置为85及以上。

大多数结果似乎都很准确,但有一个如Blink和Bling,其相似度为0.88。有没有办法在SSIS中添加规范忽略这个而不改变相似性阈值?

1 个答案:

答案 0 :(得分:0)

我用样本数据尝试了你的问题。这是我得到的阈值为0.75

enter image description here

您是否可以执行给定的步骤以及它是否对您有所帮助。

  1. 在模糊分组之前添加条件分割。
  2. 在条件拆分中为您所需/已识别的案例写入条件。 这些记录绕过模糊分组
  3. 在模糊分组后使用联合。
  4. 可能是这样的。

    enter image description here

    我不确定,这是否是你要找的。但您可以使用条件拆分来拆分数据流。