python 2.7用大行读取文件

时间:2013-12-11 17:46:12

标签: python file python-2.7 sequence fasta

我有一个fasta文件,我想只打印序列

f = open ("NC_007970.fas",'r')
for line in f:
    print line

它只打印第一行> NC_007970

我认为问题来自fasta文件本身,它由第一行'>'组成,第二行是序列,序列本身没有新行,其长度约为19000字符

> NC_007970
GTTATTGTAGCTTACACTAAAGCATGGCACTGAAGTTGCCAAGATGGGTAATCAAAATACCCCAAAAACACAAAGATTTGGTCCTAACCTTACTGTTACTTTTTGCTAAAATTACACATGCAAGTATCAGCATACCAGTGAAAACACCCTAGCAATCCTATTAGACAAAGGAGCCGGTATCAGGCACACCATGATAGCCCAAGACACCTAGCTTTGCCACACCCCCAAGGGCATTCAGCAGTGATAAAAATTAAGCAATAAGCGCAAGCTCGACTTAATTATAGCAAACATAGAGCTGGCCAATCTCGTGCCAGCCGCCGCGGTTATACAAGAAGCCCAAACTAACAGACAACCGGCGTAAAATGTGGCTAAAAATTTATCTACAAAATTAAGGCGAACCTACAACTTAACTGTTATACGCAAGTACACATTAATACATTATGAAAATAACCTTAACACAATAGAACTATTTGAACCCACTATCGCTAAGGCACAAACTGGGATTAGATACCCCACTATGCTCAGCCCTAAACTTAGATATTTACTTACAATAATATCCGCCAGAGAACTACGAGCCCAAACGCTTAAAACTCTAAAGACTTGGCGGTACCTCAACCTCCTAGAGGAGCCTGTTCTATAATCGATAATCCACGATCTACCTCACCATCCCTTGTCAATTCAGCCTATATACCACCGTCATTAGCTTACCCTGTGAAGGGTACCAAGTAAGCAAAATAACCTAAACAACTAGCAAGTCAGGTCAAGGTGTAGCTAACTGAGATGGAAGAAATGGGCTACATTTTCTTTATTAGAAATCACTTAACAGAAAGGACCATGAAATAAGTCCCATAAGTAGGATTTAGCAGTAAACTGGGAACAGAGAGCCCAATTTAAGTCGGTCCTGAGGTGCGCACACACCGCCCGTCACCCTCCTCAAATAATCCTTAAGCATAGATAAACCACAACAAACAAATAGATGAGGCAAGTCGTAACAAGGTAAGTGTACCGGAAGGTGTACTTGGAACATCAAAATATAGCTTATCAAAAGCACTCAGCTTACACCTGAAAGTTGTCCATTAAAATCGGATTATTTTGAGCAACTACCTAGCCCAACTAATAAATATAAAACCCAACAAACAAATTATCCTACCAATAAATCAACTAAAACATTTTACCATCATAGTATAGGAGATAGAAAAGATAATTGGAGCTATAAAGACAGTACCGCGAGGGAAAGATGAAAAACATGAAACACTCACCAAGCCAGAAAAAGCAAAGATTAACTCTTGTACCTTTTGCATCATGATTTAGCCAGTACATCCAAGCAAAGAGAACTAAAGTCTGAACTCCCGAAACCAAATGAGCTACTTAAAGGTAGCCTATACCACCATGGGCTAAATCCGTCTCTGTGGCAAAAGAGTGGAGAAACCTTTAAGTAGAGGTGAAAAGCCTAACGAACCTGGTGATAGCTGGTTGCTCAACAAAAGAATATCAGTTCAACCTTAAACCTCCTAACCTAACAACTTTGAAGTAATAGAAGAGAAGTTTAAGATATATTCAACAGGGGTACAGCCCTGTTGAAAAAGGGTACAACCTAAAATGCAGGACAAAACATCAAAGCAAGACCACAGTAGGCCTTAAAGCAGCCATCTCCAAAGAAAGCGTCAAAGCTCACTACAATTAATATCAACACAATTTTTTTCCCCTAAACAACATTGAGCTATTCTATCACCATAGAAGAACTAATGCTAAAATGAGTAACAAGAAGACGAAACTTCTCTTCCGCGCCAACTTAAATCATAATAGATAAACTACTGATTATTACAACCAATATTATAAGATCAACAGTACTTAATACACCATATAAACCCAACTGTTAACCCAACACAGGAGCGCACACAAGAAAGATTAAAATTTGTAAAAGGAACTAGGCAAACATTGAGCTCGACTGTTTACCAAAAACATAGCCCCTAGCAACAATAAGTATTAGGGGTAATGCCTGCCCAGTGACACTGTTCAACGGCCGCGGTATCCTAACCGTGCAAAGGTAGCGTAATCACTTGTCTTTTAAATAAGGACTAGAATGAACGGCTAAACGAGGTTCTACCTGTCTCTTACAAATAATCAGTGAAATTGGTCTTCCAGTGCAAAACCTGGAATAAAAATATAAGACGAGAAGACCCTGTGGAACTTTAAATACAAATCAATCTATTATTCATACCCACCCACGATGGTTTATCACCAATTAGCACATTGATCCATATTTTCGGTTGGGATGACCTCAGAGTAAAATTAAACCTCTGAACAAAGAACACACCTCCAAACCTAGACCCACCATTCAAAGTGCTTACAGCAAAATGATCCAATACACTTGATCAACGAACCAAGCTACCCCAGGGATAACAGCGCAATCCTATCCTAGAGTCCCTATCGACGATAGGGTTTACGACCTCGATGTTGGATCAGGACATCCTAATGGTGTAACCGCTATCAAGGGTTCGTTTGTTCAACGATTAATAGTCCTACGTGATCTGAGTTCAGACCGGAGTAATCCAGGTCGGTTTCTATCTATAAATGGGCTTTTTCTAGTACGAAAGGACCGAAAAGACAAGGCCTATTTTTAAAAACAAGCCTTACCTTATATTAGTGAAAGCAACTTAACTAATAATAAGGACAAACCATTTAACCCTAAAAAGGGGTTATTGAGGTGGCAGAGCCTGGTACAAAAGGCCTAAGCCCTTTACTCAGGGGTTCAAATCCCCTCCCCAATAATGAAAGCCCTATTATCAAACCTAATATCCCCACTTATATATATAATCCCAGTCTTAATTGCTGTAGCTTTCTTTACCTTAATTGAACGGAAAACTTTGGGATACATACAACTCCGAAAAGGCCCAAACATCGTAGGACCATGTGGACTTTTACAACCTGTAGCTGATGGTGTAAAACTATTTATTAAGGAACCAGTGTACCCATCAAACTCATCAACTATACTATTTACACTATCACCAATCCTAGCTCTACTACTATCTTTATCAGTCTGACTTCCACTGCCTCTACCATTTCCACTAGCCGACTTAAACCTAGGCCTCCTATTCCTAATTTCAATATCCAGCTTCATAGTTTACTCCATCTTATGATCTGGCTGAGCTTCAAACTCCAAGTACGCCTTAGTAGGGGCACTCCGGGCAGTAGCCCAAACTATCTCATACGAAGTAACCCTAGGAATCATCCTACTCTCCCTAATCCTATTCTCAGGCGGATTCAACATACAAACATTTATAACAACGCAGGAACCTGCGTACCTGATATTCTCATCCTGACCTTTAATAATAATATGGTATATCTCCACATTAGCAGAAACAAATCGAGCACCATTCGACCTTTCCGAAGGAGAATCTGAACTCGTATCAGGGTTTAACGTTGAATACGCCGCCGGCCCATTCGCCCTATTCTTCCTAGCAGAGTACGCTAATATTCTGATAATAAACACCCTCACCACTATCCTATTCCTGAATCCATCCCATATTAACAACACCCCCGAACTATTTTCATTATCATTAGTATCAAAAATAATACTACTCTCAGTAGGATTCCTATGAATCCGCGCCTCATACCCGCGATTCCGATATGACCAGTTAATACACTTATTATGAAAAAACTTCCTCCCTATTACCTTAGCAATGTGCCTCTGACATATATCTATGCCAACTGCCTTCTCGGGGCTACCACCGATGTTATAGGATACGTGCCTGAAATTAAAGGATCACCTTGATAAGGTGAATCATAGAGGCTAAACCCTCTCGTCTCCCTAAAAGAAAGCACCTTTACCTATAAATAACAAAATCCTATACCTGTATATTACTGTACTGAATTCATAAATTACACTACACACAATATTATCTAACCACAAATTAACACTCCATAAACCACTACATTAAAAATACAATATAGTACTATAACAGCATAACCCTTTATAAAATACCCTACAACCCATTTATAACATATATTATGAAATAAACTACCCCTTATTAAAATTACTAACAACTTCTCATAACAAACTACACAAAATCAAGCCAATATATCTTAATTTCTCGACTACAAACAATTTACCAACGTATTATCCCGTTACTTCCATAAATACACAATCCTTTTACCTAACAAACAAATTAAAACCAATTACCCTAACAGCAAAAAACACCAATATTCATCAAAAACCCCAACATATCTGAAAAATAAACTCCCTATTGTACTATTATAGGACCTAAAATACCCAAAACCCCTTTAGGTCAATATAGTTTAAAACAAACATTAGACTGTGATTCTAAAAATAGGAGTGTAAATCCCCTTATAGACCAAGAGAGATCCAACAGTAAGAACTGCTAATTCTTATACCTGAGACTAACACCTCAGCTCCCTTACTTTTAAAGGATAGAAGTAATCCACTGGTTTTAGGAACCATAAACCCTTGGTGCAACTCCAAGTAAAAGAACATGCCAACACCCCCACTGTTAGCCTTAACACATTTTATGACCCTAGCTATCCTGCTAGTTCCACTAGTAATCTCTATACTCACTACAAAAGTGTGAATTATTGAAAAGACAAAAACATCCGTGAAAACAGCGTTTTTTACCTCCATACTATCATTTCTCCTCTTTAAAGCTGAGTCCACCCCTTTCATAGTAATAGACTATAACCTATTAAGCACATCAACCTTCTATGTAAAGCTTAACTTTAAATTTGACCTATACTCCATACTATTTACACCAGTTGCCTTATACGTCTCATGATGTATTTTAGAGTTTTCACAATGATACATAGACAAAGACCCCTATCCCTCAAAATTCGCCAAATACCTACTAACCTTCATTATAGCTATAATAATCCTAGTATCAGCTAATAACCTACTCCTATTTTTTATTGGTTGGGAGGGGGTAGGAATCCTATCCTTCCTCCTAATCGCATGATGGCGAAACCGACCAAACACGAATACATCAGCCCTACAAGCTATTATCTACAACCGCATAGGAGACATCGGACTAATCTTATGTCTAGCATGACTAACAACACGCCTAAACACATTAGCACTCCAAAAAATCTTCACGTGTAATGACTTCATCACACTCCTACCATTACTAGGCCTTATCCTAGCTGCAATAGGCAAATCAGCCCAATTCGGCCTCCACCCCTGATTACCAGCAGCTATGGAAGGTCCAACCCCAGTCTCAGCGTTACTACACTCAAGTACTATGGTGGTCGCTGGCATTTTCCTACTAATCCGCATACACCCCGTATTAACCCTCAATAAATATGCTCTTTCAGCATGCCTGCTATTGGGAGCAATTACCTCATTAGTGGCAGCCTTTTGCGCTCTAACCCAAAATGATATTAAAAAAATCATTGCCTTCTCCACATCAAGCCAACTTGGCTTTATAATAGTAACCGTGGGCCTAGACCAACCACAACTAGCCTTCCTCCATCTCTCATTACACGCCTTCTTTAAAGCCATATTATTTCTATGCTCAGGTTCCATTATTCATAACCTTAATAACGAACAAGACATTCGAAAAATAGGCGGATTACATAAATGTTTACCCATCACCTCTGCATGCTTAACCATCGGCAGCATAGCGCTTGCAGGCACGCCATTCCTAACTGGATTCTACTCTAAAGATATTATTATCGAAACCATGACCACATCACATCTAAATGCTTTTGCCCTACTCATTACACTAATCGCAACCTCATTCACTGTGGTATACAGCCTGCGGATTACAATATTTGTACAAACAGGACAACCCCAACACATATCCATACTACTATTAGATGAATACAACCCGCTAGTTATCAACCCTATCATCCGCCTAGCTACAGGCAGCATTGCTGCCGGATTAATTATTTCAATAAACATTACACCGCTAGAAACCCCACCAATAACCATACCAACATACATTAAAACCGTAACATTAATGGTAGTAGCCCTAAGCCTCCTAATAGCCCTAAAACTAGCTACTATAACCAATAAAATACCCCCAAAATCATCCCACACCCATAACTTTTCCAACTCACTAATGTACTTTAATACCATAATTCACCGCTCAACACCAATAATTACTTCAACCATTAGTGAAAAATACTCAACCCGAATAATAGACTCAACCTGACAAGAAAAAATAGGCCCAAAAAAACTAGCTGAGTCACAAGTACTGCCTACTAAAACAACCTCTTCATTGCAAAAAGGCCTCATTAAAATTTATTTAACCTCATTTATCCTATCCGTCCTACTTCTTATTTACTTATTTGACTAATATACAAAACTAGTAAAATAAACATTACCCGCCGGATGTAATACGCTAAAAGGATATTACCCAAGATCTTAAAACCACTTCTCTAACTGCTAGGAACCAAAACCTTTTTACCCAAGTACCCACTATTTTTTAACCGCGCCTCACCATACATTCTAGTAGCTATCAACAAAGCATTGGTCTTGTAAACCAAAGACTGAAGACTATAATCTTCCTAGAATAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAACCGAAATCTTTTATTAAACTATCTTTTGACACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTATATTAAATACACGCTACATTACCACAAACTTTTACCAAAAGTAATACACAAACAAATTTTATCCTACTTTACTAAACCCGCATAAACATTACACGCTTTAAATACTACTATATAAAAGACAAATAAAAATTTACCTTAATATAAAACACTGCAAAGCCACTAAATAAAATTAAAACTACTCAAAAATACAAACACAAGTAATAAACTCCAAAAACTCCCACCCACAACAATATACTCAACATATACCGCATACCAACACCTCTATTTAAACCTACCAAACACACCCCAGAAACTCAAAACATCACAAAGACTAGACCATCTAGTTTCCATAGAAAAATAGGTCTTGAACCTATACCAGAGAGATCAAAACTCCCCATACTTCCATTATACTACATCCTAGTAAAGTCAGCTAATTAAGCTCTTGGGCCCATACCCCAAAAATGTCGGTTAAAATCCTTCCTTTACTAATGAACCCACACGCAAGCATAATTATTACTTTAAGCCTAATTATAGGACCCCTAATCACCATCTCTAGTAATCATTGAATCCTAGCATGAACCGGATTAGAAATCAGCACCTTAGCTATTACCCCATTAATCGCCAAACAACACCACCCACGAGCAATTGAAGCCACCATTAAATACTTCCTGACACAAGCAACCGCCTCAACACTAATTCTATCCTCTAGCATTATTAATGCCTGAACACTGGGCCAATGAGACATCACACAAATGTCTAACAACACTTCATGCGCAATTCTAACCACAGCCCTAGCCATTAAATTAGGACTAGCACCCTTCCACTTCTGATTGCCAGAAGTCCTACAAGGAACTTCCACAACAACAGCCTTAATCCTAACTACCTGACAAAAATTAGCTCCTCTATCCCTACTAGTAATAACCACCCAATCCCTAAACACACCATTACTACTATTATTAGGATTAATATCCACCTTAGTTGGCGGATGGGGCGGACTAAACCAACCCCAACTACGAAAAATCATAGCATTCTCCTCCATCGCTCACCTAGGGTGAATAATTACAATCATTACTTTCTCACCTAAACTTATATTACTCACATTCTACACATACATTACTATAACTACAGCCATATTCCTCATAATTAAACTCCTAGAGACAAACAAAATCTCTATAATAATAACATCATGGACAAAACTACCAACACTAAACACCATCATAATTCTAATCCTTATGTCACTAGCCGGACTACCACCACTAACAGGGTTCATGCCCAAATGATTAATTCTTCAAGAACTAACCAAACAGCACATATTCATTATCGCCACCATAATAGCTCTACTCTCACTACTCAGCTTATTCTTCTACTTACGAATCTCATACTGCGCAACCATTACATTACCCCCAAACTCAACTAACTATTTACAACAATGACGTCACAAAACTAACCAAAAACCCTACCTAGCTCCAATAGCCACACTATCTATCACCCTGCTCCCTATCACACCTACCCTACTAACCCTCCTCTAGAAACTTAGGATCAAGCCAATTTTTAAACCGGGGGCCTTCAAAGCCCCAAAAAAGAGATAGAACCTCTTAGTTTCTGTTAAGACCTATAGGGCTCTATCCTATATCTTATGAATGCAACTCAGACACTTTAATTAAGCTAAAGTCTCACTAGACAAATGGGCCTCGATCCCATAAAAATTTAGTTAACAGCTAAACACCCAAATCCAGCGGGCTTTTATCTAATTTTCCCGCTCTCAGAAAAAGCGGGAAAACCCCGACACAAATCAAAGTGTATCTCCGAATTTGCAATTCGGAATGAATTTCACTACGAGGTTTGATAAGAAGAGGGGTTAAACCTCTATAAAAAGGTCTACAGCCTAACGCTTAAGCACTCAGCCATCTTACCTATGATTTTAACCCGCTGATTTTTTTCTACTAACCATAAAGACATTGGTACCTTATACCTTATTTTCGGGGCCTGATCAGGTATAATTGGCACAGCATTAAGTCTTTTGATCCGTGCCGAACTGAGCCAGCCAGGTACACTTCTTGGGGATGATCAGATCTACAATGTTATTGTTACGGCCCACGCTTTTGTTATAATCTTTTTCATAGTCATACCTGTTATGATCGGCGGGTTCGGAAACTGATTAGTTCCTTTAATAATTGGGGCGCCAGACATAGCATTCCCTCGTATAAACAATATAAGCTTCTGACTCCTACCTCCATCTCTACTGCTACTATTAATATCCTCTGGAATTGAAGCAGGTGCAGGTACCGGCTGAACTGTATACCCCCCACTAGCTGGGAATATGGCCCATTCCGGGGCCTCGGTAGACTTGACTATCTTTTCCCTTCACCTCGCCGGGGTGTCTTCAATCTTGGGGGCTATTAATTTTATCACCACAGCAATCAATATAAAATCTACAACCATGTCGCAGTACCAGACACCCCTATTCGTATGATCTGTACTCATTACAGCTATCTTATTACTACTCTCTTTACCTGTACTCGCCGCAGGGATCACTATATTACTTACAGACCGAAATCTGAATACAACTTTTTTTGACCCTTCAGGAGGGGGAGACCCCATCCTATACCAACACCTATTCTGATTCTTTGGTCACCCAGAAGTATACATTCTTATCCTACCTGGGTTTGGGATAATCTCACACATTGTAACCTGCTACGCAGGTAAAAAAGAACCATTTGGATATATAGGGATAGTGTGAGCAATAATATCCATTGGATTCCTGGGCTTTATTGTGTGAGCTCACCATATATTTACCGTTGGAATAGACGTAGACACCCGAGCCTATTTCACATCTGCAACAATAATTATTGCTATCCCAACAGGGGTAAAAGTATTTAGCTGATTAGCTACCTTGCATGGGGGAACAATCCAATGGGGGGCCGCCATAATATGGGCCCTAGGTTTCATTTTCCTATTCACCATCGGCGGACTAACAGGCATTGTACTGGCTAATTCATCTCTGGATATTGTACTCCATGATACTTACTATGTAGTAGCACACTTCCACTATGTTCTTTCAATAGGGGCCGTATTCGCCATTATAGCAGGATTTACCCATTGATTCACATTATTTACAGGATATCTATTACACCAAACCTGAACAAAAGTACACTTCGGATTAATATTTGCAGGCGTTAACATAACCTTCTTCCCTCAGCACTTCCTAGGCCTGGCAGGAATACCACGACGTTACTCTGACTACCCCGATGCATACACCCTATGAAATTCAATTTCGTCAATCGGATCATTAATTTCTCTAGTAGCAGTAATTATAATAATATTTATTATCTGAGAAGCATTTTGTTCAAAGCGTAAAATAGTATTAACTGAACTCAAAACTACAAACGTAGAGTGACTACACGGTTGCCCACCACCATACCACACTTATGAAGAACCAGCCCACATGCAAGTTCAAGAAAGGAGGGAATTGAACCCCCTTAAATTAGTTTCAAGCCAACTACATAACCTTTATGCTACCTTCTTCTAAAGACGTTAGTAAAATATATTACTAAACCTTGTCAAGGTTAAATTATAAGTGAAACCCCTATACGCCTTAATGGCCCACCCGCTGCAACTAGGATTCCAGGACGCAATATCACCCGTTATAGAAGAACTCCTTCACTTTCATGACCATACCCTAATAATTGTATTTTTAATCAGCACCTTAGTGCTCTACATCATTACACTAATAATAACAACAAAACTAACATACACTAACACTATAAATGCTCAAGAAGTGGAAATAATTTGAACTATTCTACCAGCAATTGTCCTAATCACCATTGCACTCCCCTCCCTACGAGTCTTGTACTTAATAGATGAAATTAATAACCCGCATTTAACAATTAAAACCATAGGACATCAATGATACTGAACGTACGAGTATACTGACTACGAAAACCTTGAGTTTGACTCTTACATGATCCATGCCCAAGATCTACCAAACGGGTACTTTCGATTATTAGAAGTAGACCACCGCATGGTCATACCAATAGAATCGCCAATCCGAATTCTAATCTCGGCTGAAGACGTCCTACACTCATGAGCAATCCCATCATTAGGTGTAAAAACAGACGCAGTGCCCGGACGATTGAACCAAACAACTTTCATTATTACACGACCAGGAATATTCTACGGACAATGTTCAGAAATCTGCGGGGCTAACCATAGCTTCATGCCAATTGTGGTAGAATCTGTGCCACTACAATACTTCGAAAACTGATCTTCACTAATACTCTCCTAACCACTATAGAAGCTAAACAGGATAGCGCTAGCCTTTTAAACTAGAGAAAGAGAATTCCCCACCCTCCTTAGTGACATGCCACAACTAAATCCAGACCCTTGATTCTTAATTCTGTCTCTCGCATGATTAACCTACATTCTCGTCCTACAACCAAAAATTCTATCCAACAAGTCTATAAATCACCCAACCAACAAAAACAACGAAATTATTAAAACAAACCCATGAACATGACCATGACCCTAACCATAAACCTAACATTTTTTAATCAATTCACAAGCCCGCAAATCATAGGAGTTCCATTAATTATACTCGCTCTATTAGCACCATCAGCCATGTTCCAAACCCAAAACAACCGATGGTTAACTAACCGTCTTTCATTACTCCAATTATGAATAATTAACCTATTCACAAAACAACTAATATCGCCCATTAGTAAAACAGGACATCAGTGATCCGTTATCTTAACATCACTAATAATTATACTCTTAATAATTAATCTGCTAGGACTTCTACCATATACATTCACCCCTACAACACAACTCTCCATAAATATAGGACTAGCCATCCCAATATGATTAGCCACAGTACTAACAGGCCTTCGAAACCAACCAACTGCATCACTAGGACACCTTCTACCAGAAGGGACCCCAAACCTATTAACCCCAATCCTCATCATCATTGAAACTATTAGCCTTTTTATCCGACCATTAGCCCTAGGTGTACGACTTACAGCCAATCTTACAGCTGGCCACCTATTAATTCAACTTACTTCTACCGCAACATTTGCTTTACTCCCAACAATACCAACCTTATCTATGCTAACCATAGTTGTACTATTATTATTATCTATTCTAGAACTAGCAGTAGCAATAATTCAAGCCTACGTCTTCGTCTTATTACTAAGCCTCTACCTTCAAGAAAACACCTAATGACCCACCAAACTCATGCCTACCACATAGTAGACCCTAGCCCATGACCATTAACAGGCGCAGCAGCATCATTACTAATAACCTCTGGGTTCGCCATGTGATTTCACCATAACTCAATACTACTAATAACCCTAGGTTTATTAACTATACTACTGACTATACTCCAGTGATGACGAGACATTGTTCGAGAAGGAACCTTCCAAGGCCATCACACCACTCCAGTACAGAAAAGCCTACGATACGGTATAATCCTATTCGTCACGTCAGAAGTATTCTTTTTTATTGGATTCTTCTGAGCTTTCTACCACTCAAGCCTGTCCCCCACACCAGAATTAGGGGGATGTTGACCACCAACAGGAATTTCTCCACTAAATCCATTTGAAGTACCACTGTTGAATACAGCAGTCTTACTGGCCTCAGGGGTAACAATTACCTGAGCCCACCATAGCCTGATAGAAGTCAACCGACACCAGACTATCCAAGCCCTTATATTAACAGTTTTACTAGGTTTGTACTTCACAACCCTACAAGCCCTGGAGTACTACGAAGCCCCGTTTACAGTTGCTGACGGTGTGTACGGCTCTACATTTTTTATTGCAACAGGCTTTCACGGACTCCACGTAATTATTGGATCAACATTTCTAATCGTATGCCTGATACGGCAAATAAAATTCCACTTCACCTCCGCCCATCACTTCGGATTCGAAGCATCCGCTTGATACTGACACTTTGTAGATGTTGTATGACTATTCCTTTATGTATCAATCTACTGATGAGGCTCATACTCTTCTAGTACAAAATAGTACCAGTGACTTCCAATCACTAAATTTTAGCTATACCCTAAAGAAGAGTAATGAACGTAACAATCTCCATTATAACAATCGCCCTCATCCTATCAGTAGTTTTAATAACACTGAACTATTGATTAACACTAGTAAAACCAAACAACGAAAAACTATCCCCATACGAATGCGGCTTCGATCCATTAGAATCAGCTCGTTTACCATTCTCAATCCAATTTTTTCTCAGTAGCAATCTTATTCTTACTATTTGATTTAGAAATCGCATTACTCTTACCTCTACCATGAGCTATTCAACTGTTATCACCAACCTACACCTTCACCTGAGCACTTATAATCCTACTACTTCTAACATTGGGCCTCATTTATGAATGAGTTCAAGGGGGCTTGGAATGGGCAGAATTGATAACTAGTCTAACACAAGACAACTAATTTCGACTTAGTTAATCATGATTAAATCCATGGTTATCCAATGACACCATTACATTTTAGCTATCTCTCTGCTTTTATTGTTAGCATCATAGGCCTCTCACTACATCGAACCTACCTTATCTCCACCCTATTATGCTTAGAAAGCATAATATTATCCATATTTATTGCCCTATCAATATGACCTATCCAACTACAAACTTCATCATTTATACTCACTCCCATACTAATACTATCCTTCTCAGCCTGCGAAGCAGGCACCGGCCTATCCTTACTTGTGGCATCCTCACGAACCCATGGTTCAGACCACTTACAAAACTTAAACCTATTACAATGCTAAAAATCATACTTCCAACCATTATATTATTACCCACAACTATGCTCTGCAAACCAAAACAACTATGAATCACTATATTAACCCATAGTTTTGGGATTGCCTTTTTAAGCCTACAGTGATTTAAACCCTCCATGGAATTTACAAGCTTCTCCAACCATTACTTAGGGGTAGACCAAATTTCAGCCCCATTACTCATCTTAACATGCTGACTCAGCCCACTAATAGTCCTGGCCAGTCAAAACCACTTGACTAAAGAACCAGTTACACGAAAACGAACCTTTATCTCCACTATTATTCTACTACAAACCTCATTAATCCTGGCCTTCTCTGCCACAGAACTAATCATATTCTTCATAGCATTTGAAGCTACACTGATTCCAACACTAGTAATTATTACACGCTGAGGAAACCAAATAGAACGGCTAAATGCTGGAACCTATTTCCTATTCTACACTCTTATTGGATCCCTCCCCCTACTAATTGCCCTCCTTTCACTTCATACCCAAAATGGAACCCTATCCCTCTGTACTATTCAACTCAACCAACACGCCATATTAAATTCATGAACCCACACAACATGATGATTTGCATTACTAACAGCCTTCATAATCAAAATACCATTGTATGGGCTACATCTATGACTACCAAAAGCACACGTAGAAGCTCCAATCGCAGGGTCAATAATCCTAGCAGCTGTACTTCTCAAACTCGGGGGGTATGGCATTATCCGTATTATAATAACTCTAGATCCTTTATCAAAAACACTCTCTTATCCATTTATAGTCCTAGCTCTATGGGGAGTAGTCATAACCAGTTCAATCTGCTTACACCAAACAGACCTAAAATCACTAATCGCTTACTCATCAGTAAGTCACATAGGACTAGTCACTGCCGCAGCACTAACCCAAACCCACTGAGCCCATACTGGAGCAATCACACTCATAATCGCCCACGGTCTAACATCATCAATACTCTTTTGCCTAGCAAACACAAACTATGAGCGAACCCACAACCGAACATTATTAATTGCCCGAAATATGCAACTATTCCTGCCACTAATGGGGACATGATGACTACTTGCCAGCCTAGCAAACATAGCCATCCCACCGACGATTAACTTAATAGGAGAACTAACTATTATTGCCTCATTATTCAACTGATCCAACATTACAATCCTAATAACAGGGTTAGGAACTTTACTCACTGCTACCTACACCTTACATATACTATCTACAACACAATGAGGAAAGACACCCTCATATATTAAAACTATCCCTCCAACTCACACACGAGAACATTTACTGATGGCACTCCACACTATACCCATAGCACTATTAATAGTAAAACCAGAACTAATCTGAGGGGCCTTTCACTGTACTATATTCCTAAAATAAATATTAGATATAGGAGTTTAAATCTCCTTATAGACCCAAAAGTAATAAAAACTCACCCAATATTTAAAACCACCTTTCCCCACTCCCAAAAAGAGAAAAAACCTAATGTTTCAAAACTATCAATGCAATTCCAAGTAATACCGCACCCATAGCCTTAGCCTAACATTACTTACCCTAATACTACCGTATATAATACTCTCCATTTAAGCATAAAACAACACCTTCCACAATCCTGACACAACTCTTTACATCTATAAACACTGAACTTATCATACTTAACCCAAAATTACCTACTACATCACGCACAAACACACACTACTTTAAACTAACCCCCACTACCTCACATAACACACCACCCTACACCCTATCAGATTCACTTTAAAATTTTTCATCTCCACACAACCTAAACGATTAGAAACTCACCAAACACCTATTAATAGCCCTAATAATAACTAATAATTTAATTTTTTTAAATAATAGACAAAAATCACATTACTACTTATAATTGAACAATAACAAAGCTGACCAAACAACTTACTACAACCTCACACATACCCATTAAGAACTTACCTGCCTTCCTTACCCAATCTTACACTTCTTCACAGTACTCTAATCGCACGAAGCACTCCACGAGACAAACCACGAACCAATTCCAACACAACAAACAATGTTAACAATAGCCCTCAACCAGCAATCAAAAAAATTACATTGCCCAAATAATAAAATCATGACACTCCACTAAAATCCAGCCGAACCACACATAATCCACCAGCATCAACTGTGATATGACCAAACCCTTCGGTACCCCACAACCAATGACCAATAACTACAAGTCCAATAATAACTAAAACATAAACCACCATATACACCACCCCCCACAAACTCCCTCAACCAATAGGATATGGCTCCGCAACTAATGCAGCCGAATAAGCAAAAATTACCAATATCCCTCCCAAATAAATTAAAAACAACACTAAAGAAACAAAAGACCCCCCAACACTTACCAACACCCCACACCCAGAAGCCGCACCCAGGATTAAACTTAAAACTCCGTAATAAGGCGACGGATTACAAGACACACCCACCATTCAAAAAACAAAACAAAACCCAAATAAAAATATAAAATATATCATAATTCTTGCATGGACTTTAACCAAGACTAATGATCTGAAAAACCACTGTTGTATTCAACTACAAAAACCTAATGACCACAAATACACGAAAAACCCACCCTATAATAAAAATTATCAACAACTCATTCATTGACCTACCAAGCCCGTCTAATATCTCTGCTTGATGAAACTTCGGATCACTACTAGGTATCTGCCTAATTTTACAAATTATCACTGGAATTTTCCTAGCAATACACTACTCACCAGACGTCTCCCTGGCATTTTCATCAATTACACACATCTCTCGAGATGTACAATACGGATGACTTATTCGCAACATACACGCTAATGGTGCCTCCTTATTCTTCATGTACATCTATATCCACATCGGACGAGGACTATACTACGGCTCATACTTGTACAAAGAGACATGAAACACAGGGATCATTCTTCTACTACTAACTATAGCCACCGCGTTCGTAGGTTATGTTCTCCCATGGGGCCAAATATCATTCTGAGGCGCTACTGTAATCACCAACCTACTCTCAGCTATTCCATATATGGGCAGCACATTAGTACAGTGGATTTGAGGGGGGTTTTCAGTGGACAACGCAACCTTAACCCGATTCTTTACCTTCCATTTTCTTTTACCATTCATTACTTCCGGCTTCGCAATAGTACATCTTCTATTTCTGCATGAGACAGGATCAAACAACCCAACAGGATTAAACTCAAACACTGATAAAATCCCCTTCCACCCGTACTTTTCATATAAAGACTTACTAGGAATTATCCTAACACTAGCCTTACTACTAACCCTCGCACTATTCTCCCCAAATCTTTTAGGAGACCCTGACAACTTTACACCAGCCAACCCTCTATCCACTCCTCCCCATATTAAACCAGAATGATACTTCCTCTTCGCTTATGCAATCCTACGATCAATTCCTAACAAACTAGGTGGCGTACTTGCCCTCCTATTAGCTATCCTTATATTACTCCTAATACCTATCCTACATACATCAAAACAACGAACCACATCATTCCGACCACTAACCCAAATCCTCTTCTGATTCTTAGTTGCTGACCTATTAGTACTAACGTGAATCGGGGGACAGCCAGTTGAAGCCCCGTTCACCGCCATCAGCCAAATAGCCTCTATCCTATACTTCTTAATCCCATTAATCTTAATGCCTACCACAGGCGTAATCGAAAACAAAATACTAAACCTAAAATACTCTAGTAGCACACCCCACTAAAGCACTGGCCATAAACCAAAGACTGAAGACTATAATCTTCCTAGAGTAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAATCGAAATCTTTTATTAAACTATATTTTGACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTAATGTTACAGCAATAAATTTATTATGTTATACTATGTTATAGTATAGTGTGTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATGTGTTGTTATATAATATGTGTTGTTATATAATATAT

如何从这样的文件中获取序列?

1 个答案:

答案 0 :(得分:1)

AWRAM,我建议您查看BioPython包吗?

我将用来做你想做的具体代码如下:

from Bio import SeqIO

file = open('NC_007970.fas', r)
for record in SeqIO.parse(file, "clustal") :
    print record.seq
file.close()

BioPython将每个FASTA文件解析为SeqRecord对象的迭代器,您可以从中查询每个SeqRecord的序列,并使用它来操纵其他事物。