从大文本文件中删除子字符串

时间:2020-03-09 10:45:43

标签: python linux performance substring

我正在使用100万个Cisco雨伞。我发现它包含很多子域。 google.com本身包含2400多个域。我想从100万个思科总目录中删除子域,并想查看文件中还剩下多少个域

是否有任何bash命令删除子字符串,即输入文件是否包含

google.com
play.google.com 
drive.google.com

结果应类似于

google.com

其次,我尝试了以下python代码。花费大量时间检查100万个域中的每个域

import csv
domain_list=[]
import json
with open("~/Downloads/1/top-1m.csv", "r") as f:
    reader = csv.reader(f, delimiter=',')
    for row in reader:
        domain_list.append(row[1])
multiple_domain=dict()
count=0
total_iter_json=0

for domain in domain_list:
    count=count+1
    print(count)
    res = [i for i in domain_list if '.'+domain in i] 
    if(len(res)>1):
        result=[]
        result.append(len(res))
        result.extend(res)
        multiple_domain[domain]=result

我该怎么办?

0 个答案:

没有答案