用devanagari

时间:2017-07-26 16:13:11

标签: python

我有以下文字: -

जैसातुमचाहोगे... जैसातुमचाहोगे... जैसातुमचाहोगे... जैसातुमचाहोगे... जैसातुमचाहोगे... जैसातुमचाहोगे... वैसाहीरबमिलता... जैसातुमचाहोगे... वैसाहीरबमिलता... जैसातुमचाहोगे... वैसाहीरबमिलता... जैसातुमचाहोगेवैसा सससा्या... सससा्या... सससा्या... सससा्या... म्यानसेनिकलतीहै रूहोंपेलगतीहै म्यानसेनिकलतीहै रूहोंपेलगतीहै म्यानसेनिकलतीहै रूहोंपेलगतीहै म्यानसेनिकलतीहै रूहोंपेलगतीहै सदियोंतलकफिर... सदियोंतलकफिर... सदियोंतलकफिर... सदियोंतलकफिर... सदियोंतलकफिर... 在这里,您可以找到更多信息 在这里,您可以找到更多信息 在这里,您可以找到更多信息 在这里,您可以找到更多信息 सससा्या... सससा्या... सससा्या... सससा्या... डरककहुकूमतहै 更多信息,请访问 डरककहुकूमतहै 更多信息,请访问 डरककहुकूमतहै 更多信息,请访问 डरककहुकूमतहै 更多信息,请访问 डरकेहीआगेतो डरकेहीआगेतो डरकेहीआगेतो डरकेहीआगेतो डरकेहीआगेतो डरकेहीआगेजहांखुबसूरतहै डरकेहीआगेजहांखुबसूरतहै डरकेहीआगेजहांखुबसूरतहै डरकेहीआगेजहांसससा्या... सससा्या... सससा्या... सससा्या... सससा्या... सससा्या... सससा्या... सत्या...सत्या...सत्या...सत्या...

我的任务是在删除一些点(...)和某些其他标点符号(如果存在)之后将每个单词分开,并使用python将这些单词存储在新的单独文件中。为此,我已经编写了这段代码,但无法将某些单词中的“...”分开。请帮我解决这个问题

代码: -

import os
import re
import math
path='/home/priyansh/Downloads/ltrc/100/'

def split_fun(delimiters,string,maxsplit=0):
    import re
    regexpattern='|'.join(map(re.escape,delimiters))
    return re.split(regexpattern,string,maxsplit)

delim = "?","|","(",")","()",";","<",">","<>","\n",",",".","..","...","....",".....","......"," ","-"
filename="271.txt"
fd = open('sample_output.txt','w+')
with open(path+filename,'rb') as f:
    for line in f:
        for j in split_fun(delim,line):
            if j!=" " and j!="":
                fd.write(j+"\n")

fd.close()              

*已为此代码的输出提供了链接以及输入文件input and output files

1 个答案:

答案 0 :(得分:0)

您应该从文件本身复制并粘贴delim,因为它们是Unicode。 我从文件中复制了3个点(217.txt)并在开头粘贴了delim。

import io

sourceFilePath=r'C:\Users\Sachin\Desktop\271.txt'
destinationFilePath=r'C:\Users\Sachin\Desktop\sample_output.txt'

textLinesFromFile = open(sourceFilePath, encoding="utf8").read()

delim = "…","?","|","(",")","()",";","<",">","<>","\n",",",".","..","...","....",".....","......"," ","-"
delim = list(delim)

for i in range (0,len(delim)):
    textLinesFromFile = textLinesFromFile.replace(delim[i], " ")

with io.open(destinationFilePath, 'w', encoding="utf8") as file:
    file.write(textLinesFromFile)
相关问题