假设我有一个URL列表,其中一些会重复多次,但其中一些是唯一的。我需要摆脱独特的线条(这是没用的)并保存重复次数超过4次的网址(这对我来说是非常重要的网址)。
如何制作某种删除所有重复行的表达式?我希望能够将其简化为仅重复超过4次的URL的列表。
答案 0 :(得分:1)
如果您稍微调整this answer,将正向查找替换为负向查找,则会得到一个正则表达式,该正则表达式仅与以下行没有重复行的行匹配:
^(.*?)$\s+?^(?!.*^\1$)
注意:您需要先按字典顺序排序。请参阅链接的答案。如果您运行3次,则剩余的行将是在原始行中重复4次或更多次的行。
最后,您可以使用Edit -> Line Operations -> Remove Consecutive Duplicate Lines
完成工作,并为每行在原始行中重复4次或更多次的行仅给您一行。