在html文件中查找唯一文本

时间:2017-09-06 15:20:49

标签: python

我希望找到一种在一个html文件中识别和打印与另一个html文件中的句子不同的句子的方法。为此,我创建了三个函数,一个用于打开,读取,剥离空白空间,并剥离html中的文本,一个用于创建将要比较的原始字符串列表,另一个用于将字符串与所有字符串进行比较原始字符串。这是我到目前为止所做的。

def openTXT(txt):
    text=open(txt).read()
    StripText=text.strip()
    StripSplitText=StripText.split('.')
    return StripSplitText


def originalSentances(folder):
    sentanceList=[]
    for item in folder:
        for sentance in item:
            if item not in sentanceList:
                sentanceList.append(item)
    return sentanceList

def findUniqueText(massMailerText,inputFolder, outputFile):
    for item in inputFolder:
        results=open('outputFile','w')
        results.write(item)
        text=openTXT(item)
        for sentance in text:
            if sentance in massMailerText:
                pass
            else:
                outputFile.write(sentance)

massMailSentances= originalSentances('original')
findUniqueText(massMailSentances,'modified','uniqueResults.txt')

当我在一个文件上运行时,我收到一个错误,上面写着“没有suck文件或目录:'m')任何想法为什么会发生这种情况以及如何解决这个问题?

如果这有用,内核也会打印出来

  

IOError Traceback(最近一次调用   最后一个)C:\ Users \ amcclure \ Desktop \ findUniqueText.py in()        28        29 massMailSentances = originalSentances('original')   ---> 30 findUniqueText(massMailSentances,'modified','uniqueResults.txt')

     

C:\ Users \ amcclure \ Desktop \ findUniqueText.py in   findUniqueText(massMailerText,inputFolder,outputFile)        20个结果=打开('outputFile','w')        21 results.write(item)   ---> 22 text = openTXT(item)        23为文本中的传票:        24如果在massMailerText中发送信息:

     

C:\ Users \ amcclure \ Desktop \ findUniqueText.py in openTXT(txt)         2         3 def openTXT(txt):   ----> 4 text = open(txt).read()         5 StripText = text.strip()         6 StripSplitText = StripText.split('。')

0 个答案:

没有答案
相关问题