将字符串从txt文件解压缩为CSV

时间:2015-06-07 19:49:31

标签: python csv

我正在尝试使用几千个序列从.txt文件中提取字符串,并使用这些字符串写入CSV。我删除了原始.txt文件中的所有无关信息,这是我现在的文档格式:

DEFINITION  Homo sapiens haplogroup HV5 mitochondrion, complete genome.
ACCESSION   DQ377992
/haplogroup="HV5"
/pop_variant="Ashkenazi Jew"
/note="ethnicity:Ashkenazi Jew; origin_locality:Belarus:Homel' Volast', Vyetka; origin_coordinates:52.51 N 31.17 E"
DEFINITION  Homo sapiens haplotype U5b1c mitochondrion, complete genome.
ACCESSION   DQ661681
/haplotype="U5b1c"
/note="Native American (Cherokee)"

我正在尝试提取入藏号,单倍型或单倍群,种族,位置(origin_locality),坐标(origin_coordinates)以及可能已放入/note=到csv的任何其他信息。我面临的一个问题是,并非每个序列都包含所有信息,并非所有字符串都在它们自己的引号中。

如何提取入藏号,引号之间的字符串,并确保我将正确的字符串提取到正确的序列?另外,我如何处理仅以分号分隔的字符串?

编辑:另一个问题并未解决缺失信息或CSV中的结果对齐问题。

1 个答案:

答案 0 :(得分:2)

您可以创建一个包含所有可能参数作为属性的类。 然后遍历所有行,在需要时创建一个新对象(即,当行以'定义'开始)并填充该对象的属性值。之后,您可以引用该对象并编写其属性' csv中的值。

相关问题