用seqtk随机提取指定数目的序列

如果数据测多了，我们可以使用seqtk对fastq文件进行随机抽样来减小分析的数据量。

如果数据测多了，我们可以对fastq文件进行随机抽样来减小分析的数据量。

首先我们可以使用一条指令去计算总base数，看一下大概需要缩减的比例：

zcat input.fastq.gz|paste - - - - | cut -f 4 | fold -w 1 | wc -l

由于reads的长度一般是固定的，一般是150bp，可以一下计算在指定数据量情况下，需要保留多少条reads，然后就可以用seqtk工具去进行截取了：

seqtk sample -s100  input.fastq.gz reads数（如：1500） 或者 需要保留的数据比例(如：0.5)

其中-s是用于指定随机种子，当为PE数据时，随机数种子要相同，确保fastq的ID对应.

0 条评论