如果数据测多了,我们可以对fastq文件进行随机抽样来减小分析的数据量。
首先我们可以使用一条指令去计算总base数,看一下大概需要缩减的比例:
zcat input.fastq.gz|paste - - - - | cut -f 4 | fold -w 1 | wc -l
由于reads的长度一般是固定的,一般是150bp,可以一下计算在指定数据量情况下,需要保留多少条reads,然后就可以用seqtk工具去进行截取了:
seqtk sample -s100 input.fastq.gz reads数(如:1500) 或者 需要保留的数据比例(如:0.5)
其中-s是用于指定随机种子,当为PE数据时,随机数种子要相同,确保fastq的ID对应.
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!