c++ - 跳过59GB fastq文件的前半部分来处理后半部分：逐行读取，还是fgetpos？

我有2~59GB的“.fastq”格式的文本文件。 fastq文件是来自测序仪的基因组学读取文件。每4行是一个新读取，但行的大小可变。

文件大小约为59GB，并且大约有211M读取 - 这意味着，给予或接受大约211M * 4 = 844M行。我正在使用的程序Bowtie目前有能力执行以下选项：

“ - 跳过105M - 请到105M”

这实际上意味着“跳过前105M读取，只处理下一次105M读取”。通过这种方式，您可以分解文件的处理。问题是，它跳过的方式非常慢。它只是读取正常情况下的第一个105M读取，但不处理它们。然后，一旦达到给定的读取值，它就会开始比较。

我想知道我是否可以使用类似C / C ++的fsetpos来将位置设置到文件的中间[或者任何地方]我意识到它可能会把我放在一条线的中间位置，然后从那里找到第一次完全读取的开始，开始处理而不是等待它读取大约422M行，直到它到达需要的位置。有没有人在这么大的文件上做fsetpos的经验，并且知道性能是否比现在的表现更好？

Thanks-- 尼克

跳过59GB fastq文件的前半部分来处理后半部分：逐行读取，还是fgetpos？

1 个答案: