Question

如何删除文件中多次出现的单词，只保留第一个单词并删除克隆。

Answer 1

一个简单的算法就是迭代输入中的所有单词，将每个单词添加到您之前看到的一组单词中。如果单词已经在集合中，请将其删除。

以下是一个例子：

seen_words = set()
for word in words:
    if word not in seen_words:
        print word
        seen_words.add(word)

Answer 2

你也可以使用这样的字典：

mydict = {}
mylist = [1, 2, 2, 3, 4, 5, 5]
for item in mylist:
  mydict[item] = ""
for item in mydict:
  print item

输出：

但当然，您需要将其整合到文件读/写中。

Answer 3

您可以使用一套：

set（'这些都是单词都是这些'.split（））

输出： '这些'，'the'，'all'，'are'，'words'

Answer 4

fileText = "some words with duplicate words"
fileWords = fileText.split(" ")
output = fileWords[0]
words = [output]
for word in fileWords:
    if word not in words:
        output += " "+word
        words.append(word)

Answer 5

如果您的文件不是很大，

word='word'
data=open("file").read()
ind = data.find(word)
print data[:ind+len(word)] + data[ind:].replace(word,"")

删除在文件中多次出现的单词

5 个答案: