合并ALMOST相同的数据行

时间:2014-05-09 08:31:21

标签: google-refine

我有大量数据(英国和美国邮政地址)100,000+,包含重复或ALMOST相同的数据行(包含5列) 在几乎相同的行中,五列中的四列具有完全匹配的数据 例如:- AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 AAAA BBBB CCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 DDDD EEEE FF FFFFF FFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 GGGG HHHH IIII IIIII 55.555 66.666 我正在尝试使用Google Refine删除这些重复(或接近重复的行) 我只是无法管理它 我最终想要的是: - AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 例如使用" Shorter"放弃列。数据长度

1 个答案:

答案 0 :(得分:1)

您可以通过以下步骤实现此目的 - 1.排在第1列 2.在第2栏排序 3.在第4栏排序 4.按第5栏排序 5.永久重新排序行(在顶部打开) 现在你会看到 - 所有行都是永久排序的。 在第1列上留空。
结果将是 -
    ================================================== =============

  AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222
            BBBB CCCCCC CCCCCCCC 11.111 22.222
      DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444
           EEEE FF FFFFF FFFFF 33.33 44.444
      GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666
           HHHH IIII IIIII 55.555 66.666

===================================================================  

现在选择第一列中包含空白的所有行并删除所有行。