python - 通过坐标获得人类基因组序列的快速方法

我希望随机获得大量人类基因组片段（超过5亿个）。

这是整个过程的部分工作。我有来自bowtie的.sam结果文件，有1000万个人类基因组读数对齐。我想将每个查询读取与sam文件中的“对齐的参考序列”进行比较。我使用的参考序列是来自UCSC的hg19.fa。所以我需要能够通过使用sam文件中的位置从hg19.fa（或染色体文件）中获取序列。

e.g。给予：chr4：35654-35695，我可以获得42bp序列：

gtcttccagggtttttatatttttgggttttacacttaagt

到目前为止，我有两个解决方案： 1.从UCSC DAS服务器获取序列的python脚本： http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4:35654,35695

使用python脚本调用''samtools faidx''命令并返回commnad输出，来自帖子： http://seqanswers.com/forums/showthread.php?t=23606&highlight=fetch+genome+coordinate

但是，它们很慢。 samtools faidx比从DAS服务器获取它快一点，但仍然很慢。

那么，有没有 FAST 方法呢？我有分离的染色体fasta文件和hg19.fa文件。