用seqtk随机提取指定数目的序列

如果数据测多了,我们可以使用seqtk对fastq文件进行随机抽样来减小分析的数据量。

如果数据测多了,我们可以对fastq文件进行随机抽样来减小分析的数据量。

首先我们可以使用一条指令去计算总base数,看一下大概需要缩减的比例:

zcat input.fastq.gz|paste - - - - | cut -f 4 | fold -w 1 | wc -l

由于reads的长度一般是固定的,一般是150bp,可以一下计算在指定数据量情况下,需要保留多少条reads,然后就可以用seqtk工具去进行截取了:

seqtk sample -s100  input.fastq.gz reads数(如:1500) 或者 需要保留的数据比例(如:0.5)

其中-s是用于指定随机种子,当为PE数据时,随机数种子要相同,确保fastq的ID对应.

  • 发表于 2024-08-27 17:43
  • 阅读 ( 593 )
  • 分类:linux

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
每天学习一点点
每天学习一点点

53 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章