删除在文件中多次出现的单词

时间:2011-04-26 23:08:28

标签: python string

如何删除文件中多次出现的单词,只保留第一个单词并删除克隆。

5 个答案:

答案 0 :(得分:3)

一个简单的算法就是迭代输入中的所有单词,将每个单词添加到您之前看到的一组单词中。如果单词已经在集合中,请将其删除。

以下是一个例子:

seen_words = set()
for word in words:
    if word not in seen_words:
        print word
        seen_words.add(word)

答案 1 :(得分:0)

你也可以使用这样的字典:

mydict = {}
mylist = [1, 2, 2, 3, 4, 5, 5]
for item in mylist:
  mydict[item] = ""
for item in mydict:
  print item

输出:

1
2
3
4
5

但当然,您需要将其整合到文件读/写中。

答案 2 :(得分:0)

您可以使用一套:

set('这些都是单词都是这些'.split())

输出: '这些','the','all','are','words'

答案 3 :(得分:0)

fileText = "some words with duplicate words"
fileWords = fileText.split(" ")
output = fileWords[0]
words = [output]
for word in fileWords:
    if word not in words:
        output += " "+word
        words.append(word)

答案 4 :(得分:0)

如果您的文件不是很大,

word='word'
data=open("file").read()
ind = data.find(word)
print data[:ind+len(word)] + data[ind:].replace(word,"")