在python中读取文本奇怪的错误

时间:2016-03-17 09:10:16

标签: python xml file text file-io

我正在打开一个如下文件:http://pastebin.com/ucH5ayHa

尝试使用简单的python读取它:

f1 = open("goldstandard-answer-utf-8.txt", "r")

print f1.readline();

for line in f1:
    print line

f1.close()

两条打印线都不打印整个文档。 readline和for循环分别打印:

</file>

这很奇怪。显然它与文档中的标签有关,但我尝试用lmxl etree或美丽的汤解析它都会产生类似的结果。有没有办法强制python打印行并忽略标记,如果这有意义的话?

编辑:(建议使用注释)预期输出与pastebin条目完全相同:      2028.htm.txt     Mäkitalo,ÖstenMäkitalo,ÖstenMäkitalo,JessicaLindbäck,ÖstenMäkitalo,ÖstenMäkitalo,RobertBrännström     等...

1 个答案:

答案 0 :(得分:0)

如果文件确实是用utf-8编码的,顾名思义,请尝试打开它:

import codecs

f = codecs.open('goldstandard-answer-utf-8.txt', 'r', encoding='utf-8')
相关问题