我希望随机获得大量人类基因组片段(超过5亿个)。
这是整个过程的部分工作。我有来自bowtie的.sam结果文件,有1000万个人类基因组读数对齐。我想将每个查询读取与sam文件中的“对齐的参考序列”进行比较。我使用的参考序列是来自UCSC的hg19.fa。所以我需要能够通过使用sam文件中的位置从hg19.fa(或染色体文件)中获取序列。
e.g。给予:chr4:35654-35695,我可以获得42bp序列:
gtcttccagggtttttatatttttgggttttacacttaagt
到目前为止,我有两个解决方案: 1.从UCSC DAS服务器获取序列的python脚本: http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4:35654,35695
但是,它们很慢。 samtools faidx比从DAS服务器获取它快一点,但仍然很慢。
那么,有没有 FAST 方法呢?我有分离的染色体fasta文件和hg19.fa文件。
答案 0 :(得分:2)
答案 1 :(得分:0)
您可以尝试使用python twobitreader模块:
python -m twobitreader hg19.2bit< temp.bed