Seqtk | 一个快速处理FASTA和TASTQ文件的工具

Seqtk工具地址:https://github.com/lh3/seqtk Seqtk工具命令: 操作举例: 01. 将FASTQ格式文件转换成FASTA格式; seqtk seq -a in.fq.gz > out.fa 02. 将FASTQ(Illumina 1.3+)格式...

Seqtk工具地址:https://github.com/lh3/seqtk

Seqtk工具命令:attachments-2023-06-WBKpX3yz64990a84ac91e.png

操作举例:

01. 将FASTQ格式文件转换成FASTA格式;

seqtk seq -a in.fq.gz > out.fa

02. 将FASTQ(Illumina 1.3+)格式文件转换成FASTA格式,并将质量低于20的碱基位点(base)转换成小写或N;

seqtk seq -aQ64 -q20 in.fq > out.fa    #将质量低于20的碱基位点(base)转换成小写
seqtk seq -aQ64 -q20 -n N in.fq > out.fa    #将质量低于20的碱基位点(base)转换成N

03. 对FASTA/FASTQ长行进行折叠并删除FASTA/FASTQ注释;

seqtk seq -Cl60 in.fa > out.fa

05. 将多行FASTQ转换成4行FASTQ

seqtk seq -l0 in.fq > out.fq

06. 对FASTA/FASTQ序列做反向互补

seqtk seq -r in.fq > out.fq

07. 根据输入的name.lst文件内容提取对应序列,name.lst文件格式为每行一个序列名;

seqtk subseq in.fq name.lst > out.fq

08. 根据输入的reg.bed文件内容提取对应固定区域(region)序列;

seqtk subseq in.fa reg.bed > out.fa

09. 根据reg.bed文件中的区域将对应序列转换成小写;

seqtk seq -M reg.bed in.fa > out.fa

10. 直接对FASTQ文件进行序列随机提取10000 reads,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应;

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

也可以按比例随机提取序列;

seqtk sample -s100 read1.fq 0.85 > sub1.fq
seqtk sample -s100 read2.fq 0.85 > sub2.fq

如果FASTQ为压缩文件,也可以直接提取,并且在随机提取之后使用gzip重新生成压缩文件;

seqtk sample -s100 read1.fq.gz 10000 |gzip > sub1.fq.gz
seqtk sample -s100 read2.fq.gz 10000 |gzip > sub2.fq.gz

11. 使用Phred算法从两端修剪低质量碱基;

seqtk trimfq in.fq > out.fq

12. 直接指定read左侧和右侧修剪bp长度;

seqtk trimfq -b 5 -e 10 in.fa > out.fa

13. 查找端粒(TTAGGG)n个重复序列;

seqtk telo seq.fa > telo.bed 2> telo.count
  • 发表于 2023-06-26 14:20
  • 阅读 ( 3989 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
rzx
rzx

78 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章