Question

我希望找到一种在一个html文件中识别和打印与另一个html文件中的句子不同的句子的方法。为此，我创建了三个函数，一个用于打开，读取，剥离空白空间，并剥离html中的文本，一个用于创建将要比较的原始字符串列表，另一个用于将字符串与所有字符串进行比较原始字符串。这是我到目前为止所做的。

def openTXT(txt):
    text=open(txt).read()
    StripText=text.strip()
    StripSplitText=StripText.split('.')
    return StripSplitText


def originalSentances(folder):
    sentanceList=[]
    for item in folder:
        for sentance in item:
            if item not in sentanceList:
                sentanceList.append(item)
    return sentanceList

def findUniqueText(massMailerText,inputFolder, outputFile):
    for item in inputFolder:
        results=open('outputFile','w')
        results.write(item)
        text=openTXT(item)
        for sentance in text:
            if sentance in massMailerText:
                pass
            else:
                outputFile.write(sentance)

massMailSentances= originalSentances('original')
findUniqueText(massMailSentances,'modified','uniqueResults.txt')

当我在一个文件上运行时，我收到一个错误，上面写着“没有suck文件或目录：'m'）任何想法为什么会发生这种情况以及如何解决这个问题？

如果这有用，内核也会打印出来

IOError Traceback（最近一次调用   最后一个）C：\ Users \ amcclure \ Desktop \ findUniqueText.py in（）        28        29 massMailSentances = originalSentances（'original'）   ---＆GT; 30 findUniqueText（massMailSentances，'modified'，'uniqueResults.txt'）

C：\ Users \ amcclure \ Desktop \ findUniqueText.py in   findUniqueText（massMailerText，inputFolder，outputFile）        20个结果=打开（'outputFile'，'w'）        21 results.write（item）   ---＆GT; 22 text = openTXT（item）        23为文本中的传票：        24如果在massMailerText中发送信息：

C：\ Users \ amcclure \ Desktop \ findUniqueText.py in openTXT（txt）         2         3 def openTXT（txt）：   ----＆GT; 4 text = open（txt）.read（）         5 StripText = text.strip（）         6 StripSplitText = StripText.split（'。'）

在html文件中查找唯一文本

0 个答案: