Python:将文本拆分为行列表

时间:2016-09-29 20:22:02

标签: python text split lines

我是Python新手,但我的文件文件如下:

12345 | 6789 | abcd | efgh 

我希望我的输出像:

12345
6789
abcd
efgh

=====================

我真的不知道剧本 但是我通过那些函数split(),strip(),责备怪责备了很多脚本

但我没能做到 所以请求帮助是有人可以的。

我将不胜感激任何帮助。

with open('contacts_index1.txt') as f:
    lines = f.read().splitlines("|")

5 个答案:

答案 0 :(得分:1)

从您的所有评论中,看起来问题与文件中的实际文本有关,而不是解析它的能力。看起来每个人的解决方案都在正确的轨道上,你只需要强制编码。

您描述的错误描述为in this other StackOverflow post

with open('contacts_index1.txt', 'r') as f:
     lines = f.read().encode("utf-8").replace("|", "\n")

编辑:问题似乎是一个令人讨厌的角色,没有正确解码。使用open,您可以告诉它忽略无法解码的字符。

import io 
with io.open("contacts_index1.txt", errors="ignore") as f:
    lines = f.read()replace("|", "\n")

答案 1 :(得分:1)

您必须使用解码。以下代码将起作用:

def dataFunction(filename):
    with open(filename, encoding="utf8") as f:
        return f.read()

使用filename作为参数调用此函数:

Contents = dataFunction(filename)
elements = Contents.split("|")
for element in elements:
         print(element)

答案 2 :(得分:0)

您发布的代码存在一些问题:

  • f.read没有读完整行。它应该是f.readline()
  • 功能splitlines是什么?

您的问题在不同方面尚不清楚。也许这个片段可能会有所帮助:

for line in open('contacts_index1.txt'):
    elements = line.split('|')
    for element in elements:
        print element.strip()

编辑:我不知道函数splitlines。只是查了一下。无论如何,你在代码中使用它的方式似乎都不正确。

答案 3 :(得分:0)

我强烈建议使用csv模块进行此类任务,因为它看起来像csv类型的文件,使用' |'作为分隔符:

import csv
with open('contacts_index1.txt','r') as f:
    reader=csv.reader(f,delimiter='|')
    for row in reader:
        #do things with each line
        print "\n".join(row)

答案 4 :(得分:0)

请逐行完成此操作。无需一次读取整个文件。

类似的东西:

with open(file_name) as f_in:
    for line in f_in:
        for word in line.split('|'):
            print word.strip()

如果是unicode问题,大部分时间都是自动的:

$ cat /tmp/so.txt
12345 | 6789 | abcd | éfgh 

(请注意文件中的é

上述程序有效。如果它不起作用,请使用编解码器:

with open(fn) as f_in:
    for line in f_in:
        line=line.decode('utf-8')  # or whatever codec is used for that file...
        for word in line.split('|'):
            print word.strip()

使用Python3,只需在打开文件时设置编码:

with open(fn, encoding='utf-8') as f_in:   # <= replace with the encoding of the file...
    for line in f_in:
        for word in line.split('|'):
            print(word.strip())