我需要解析一堆类似于下面文本的无格式文本。
那些| DT | O考虑| VBN | O无政府主义者| NNS | O at | IN | O best | JJS | O share | NN | O a | DT | O某些| JJ | O家族| NN | O相似| NN | O。|。| O“| RQU | O
我需要使用正则表达式将数据解析为如下格式:
DT I-MISC
某些JJ O
in IN O
DT B
英镑NN I
答案 0 :(得分:4)
with open('outfile.txt', 'wb') as outfile, open('infile.txt', 'r') as infile:
[outfile.write(i.replace('|', ' ') + '\n') for i in infile.read().split()]
你基本上只想用空格分割然后替换|白色空间是否正确?这似乎是你正在寻找的。 p>
修改强> 代码现在写入文件。
编辑2: 代码现在从文件中读取