通过坐标获得人类基因组序列的快速方法

时间:2014-04-15 16:25:56

标签: python sequence bioinformatics genome

我希望随机获得大量人类基因组片段(超过5亿个)。

这是整个过程的部分工作。我有来自bowtie的.sam结果文件,有1000万个人类基因组读数对齐。我想将每个查询读取与sam文件中的“对齐的参考序列”进行比较。我使用的参考序列是来自UCSC的hg19.fa。所以我需要能够通过使用sam文件中的位置从hg19.fa(或染色体文件)中获取序列。

e.g。给予:chr4:35654-35695,我可以获得42bp序列:

gtcttccagggtttttatatttttgggttttacacttaagt

到目前为止,我有两个解决方案: 1.从UCSC DAS服务器获取序列的python脚本: http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4:35654,35695

  1. 使用python脚本调用''samtools faidx''命令并返回commnad输出, 来自帖子: http://seqanswers.com/forums/showthread.php?t=23606&highlight=fetch+genome+coordinate
  2. 但是,它们很慢。 samtools faidx比从DAS服务器获取它快一点,但仍然很慢。

    那么,有没有 FAST 方法呢?我有分离的染色体fasta文件和hg19.fa文件。

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:0)

您可以尝试使用python twobitreader模块:

python -m twobitreader hg19.2bit< temp.bed

http://pythonhosted.org/twobitreader/

相关问题