如何使用符号" |的正则表达式解析文本"

时间:2015-03-03 00:04:19

标签: python regex

我需要解析一堆类似于下面文本的无格式文本。

  

那些| DT | O考虑| VBN | O无政府主义者| NNS | O at | IN | O best | JJS | O share | NN | O a | DT | O某些| JJ | O家族| NN | O相似| NN | O。|。| O“| RQU | O

我需要使用正则表达式将数据解析为如下格式:

  

DT I-MISC

     

某些JJ O

     

in IN O

     

DT B

     

英镑NN I

1 个答案:

答案 0 :(得分:4)

with open('outfile.txt', 'wb') as outfile, open('infile.txt', 'r') as infile:
    [outfile.write(i.replace('|', ' ') + '\n')  for i in infile.read().split()]

你基本上只想用空格分割然后替换|白色空间是否正确?这似乎是你正在寻找的。

修改 代码现在写入文件。

编辑2: 代码现在从文件中读取