识别大型数据集中的重复项

时间:2016-09-27 10:02:17

标签: excel excel-formula

我有每周发送的SMS消息列表,通常介于200-300,000个条目之间,我试图找出个人有多个具有相同模板ID的消息的情况

因此,为此,手机号码在E栏中,模板ID在K栏中。

到目前为止,我已尝试添加辅助列,但excel没有资源来运行它

要做到这一点,我已将E和E列连接起来。 K然后用

=IF(COUNTIF($N$2:N2,N2)>1, "Duplicate","Original")

不幸的是,Excel无法计算所有这些,因为它没有足够的资源。

有没有更有效的方法来做到这一点我错过了?

2 个答案:

答案 0 :(得分:0)

尝试使用数据透视表。 将列N用作,并将相同列的计数用作。然后,您可以根据值对行标签进行排序,以仅查看值为>的行。 1.

修改

因为你无法连接。以下应该有效:

  • 将手机号码设为行标签。
  • 还将模板ID设置为行标签。
  • 将移动电话号码设置为值 - 并更改值字段 设置,以便按计数进行汇总。
  • 右键单击并从中调整,从移动号码中删除小计 你觉得最好的布局(我会选择Tabular)。
  • 然后按大于1过滤模板ID。

答案 1 :(得分:0)

无需连接。只需使用COUNTIFS

即可

尝试使用此公式进行条件格式化

=COUNTIFS($E$2:E2,E2,$K$2:K2,K2) > 1

或者,这是您原来的计划:

=IF(COUNTIFS($E$2:E2,E2,$K$2:K2,K2)>1,"duplicate","original")

如果这不起作用,也许VBA解决方案可行,但我没有在非常大的数据集上测试过。