解析制表符分隔文件

时间:2013-07-03 07:58:11

标签: python parsing

我很抱歉这个问题有些模糊,我对Python很新......

我需要解析制表符分隔的文本文件。这是一个非常大的文件,我试图识别和提取特定的东西。例如,如果一行是:

[苹果香蕉樱桃日期] 我想搜索并识别术语“apple”,然后提取术语“date”。

然后,我需要访问提取的术语列表并使用它们(用于与其他列表等进行比较)

我已经阅读过有关正则表达式的内容,但虽然这似乎对搜索有好处,但我不知道如何使用它来提取搜索关键字以外的术语。此外,我不知道如何访问/解析后操作结果数组..

任何帮助/方向/指针/建议/示例都会令人惊叹。

非常感谢你!

2 个答案:

答案 0 :(得分:3)

如果文件以制表符分隔,则通常是使用csv模块的标志:

>>> import csv
>>> with open('eggs.csv', 'rb') as csvfile:
...     reader = csv.reader(csvfile, dialect=csv.excel_tab)
...     for row in reader:
...         print row

没有任何具体的例子,很难说更多。

答案 1 :(得分:1)

http://docs.python.org/2/library/re.html

这是一个简单的例子:

import re
# This regular expression detects base-64 encoded images
regex = '(?P<src>data:image/png;base64, (?<image>[^"]*))'
# you can then either
# a)
matches = re.findall(regex, your_input_string)
for m in matches:
    # address your matches with index notation
    src = m[0]
    data = m[1]
# b)
src = re.search(regex, your_input_string).group('src')
data = re.search(regex, your_input_string).group('data')