书面问题.CSV文件?

时间:2015-09-14 08:29:06

标签: python regex python-2.7 csv

我有一个类似下面的文本文件:

geoList.txt

Receptor Name:I151T.B99990002_mus.pdbqt
Ligand Name: LIGAND 1
Using random seed: 1896818552

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
     1        -10.7      0.000      0.000
     2        -10.4      1.859      3.037
     3        -10.1      1.992      3.474

Receptor Name: I151T.B99990001_mus.pdbqt
Liang Name: LIGAND 1
Using random seed: 1896818552

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
     1         -9.5      0.000      0.000
     2         -9.4      2.083      3.784
     3         -9.0      2.471      8.360
     4         -9.0      1.493      3.523

我使用模式" Receptor名称提取标题:"并通过正则表达式加入相应的值。然后我尝试用它制作CSV文件。

import os 
import re
import csv
import sys

h=open("path/geoList.txt","r")

totallog=[]

for line in h:
    if line.startswith('Receptor Name:'):
         prefix=line
    elif re.search(r'^\s+\d', line):
         totallog.append(re.sub(r'\s+',';',((str(re.findall(r'\d+',((prefix.strip().split("/")[-1])[:-10]).split(".")[0]))+(prefix.strip().split("/")[-1])[:-10]+line).replace("']",";")).replace("['",'').strip()))

with open("Hi.CSV", 'wb') as csvfile:
    logwriter = csv.writer(csvfile, delimiter=';', quoting=csv.QUOTE_MINIMAL)
    logwriter.writerow(['MUTANTPOSITION','MUTANT','RANK','AFFINITY (kcal/mol)','DistFromRmsd l.b.','BestModeRmsd u.b.'])
    k=sorted(totallog,key=lambda x:float(x.split(';')[-3]))
    for i in k:
        logwriter.writerow(i)

我的输出:

MUTANTPOSITION;MUTANT;RANK;AFFINITY (kcal/mol);DistFromRmsd l.b.;BestModeRmsd u.b.
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;2;";";1;";";-;1;0;.;7;";";0;.;0;0;0;";";0;.;0;0;0
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;2;";";2;";";-;1;0;.;4;";";1;.;8;5;9;";";3;.;0;3;7
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;2;";";3;";";-;1;0;.;1;";";1;.;9;9;2;";";3;.;4;7;4
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;1;";";1;";";-;9;.;5;";";0;.;0;0;0;";";0;.;0;0;0
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;1;";";2;";";-;9;.;4;";";2;.;0;8;3;";";3;.;7;8;4
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;1;";";3;";";-;9;.;0;";";2;.;4;7;1;";";8;.;3;6;0
1;5;1;";";I;1;5;1;T;.;B;9;9;9;9;0;0;0;1;";";4;";";-;9;.;0;";";1;.;4;9;3;";";3;.;5;2;3

但是,这里每个角色用';' 。我真的不知道这是怎么回事。

我想要输出如下:

MUTANTPOSITIONMUTANTRANKAFFINITY (kcal/mol)DistFromRmsd l.b.BestModeRmsd u.b.
151;I151T.B99990002;1;-10.7;0.000;0.000
151;I151T.B99990002;2;-10.4;1.859;3.037
151;I151T.B99990002;3;-10.1;1.992;3.474
151;I151T.B99990001;1;-9.5;0.000;0.000
151;I151T.B99990001;2;-9.4;2.083;3.784
151;I151T.B99990001;3;-9.0;2.471;8.360
151;I151T.B99990001;4;-9.0;1.493;3.523

如果有人知道该怎么做,你会帮我解决这个问题。

提前致谢

1 个答案:

答案 0 :(得分:3)

import os 
import re
import csv
import sys

h=open("geoList.txt","r")

totallog=[]

for line in h:
    if line.startswith('Receptor Name:'):
         prefix=line
    elif re.search(r'^\s+\d', line):
         totallog.append(re.sub(r'\s+',';',((str(re.findall(r'\d+',((prefix.strip().split("/")[-1])[:-10]).split(".")[0]))+(prefix.strip().split("/")[-1])[:-10]+line).replace("']",";")).replace("['",'').strip()))

with open("Hi.CSV", 'wb') as csvfile:
    logwriter = csv.writer(csvfile, quoting=csv.QUOTE_MINIMAL)
    logwriter.writerow(['MUTANTPOSITION','MUTANT','RANK','AFFINITY (kcal/mol)','DistFromRmsd l.b.','BestModeRmsd u.b.'])
    k=sorted(totallog,key=lambda x:float(x.split(';')[-3]))


    for i in k:
        logwriter.writerow(i.split(';'))

,输出为:

MUTANTPOSITION,MUTANT,RANK,AFFINITY (kcal/mol),DistFromRmsd l.b.,BestModeRmsd u.b.
151,Receptor,Name:I151T.B99990002,1,-10.7,0.000,0.000
151,Receptor,Name:I151T.B99990002,2,-10.4,1.859,3.037
151,Receptor,Name:I151T.B99990002,3,-10.1,1.992,3.474
151,Receptor,Name:,I151T.B99990001,1,-9.5,0.000,0.000
151,Receptor,Name:,I151T.B99990001,2,-9.4,2.083,3.784
151,Receptor,Name:,I151T.B99990001,3,-9.0,2.471,8.360
151,Receptor,Name:,I151T.B99990001,4,-9.0,1.493,3.523