Seqtk | 一个快速处理FASTA和TASTQ文件的工具

Seqtk工具地址：https://github.com/lh3/seqtk Seqtk工具命令：操作举例： 01. 将FASTQ格式文件转换成FASTA格式； seqtk seq -a in.fq.gz > out.fa 02. 将FASTQ（Illumina 1.3+）格式...

Seqtk工具命令：

操作举例：

01. 将FASTQ格式文件转换成FASTA格式；

seqtk seq -a in.fq.gz > out.fa

02. 将FASTQ（Illumina 1.3+）格式文件转换成FASTA格式，并将质量低于20的碱基位点（base）转换成小写或N；

seqtk seq -aQ64 -q20 in.fq > out.fa    #将质量低于20的碱基位点（base）转换成小写
seqtk seq -aQ64 -q20 -n N in.fq > out.fa    #将质量低于20的碱基位点（base）转换成N

03. 对FASTA/FASTQ长行进行折叠并删除FASTA/FASTQ注释；

seqtk seq -Cl60 in.fa > out.fa

05. 将多行FASTQ转换成4行FASTQ

seqtk seq -l0 in.fq > out.fq

06. 对FASTA/FASTQ序列做反向互补

seqtk seq -r in.fq > out.fq

07. 根据输入的name.lst文件内容提取对应序列，name.lst文件格式为每行一个序列名；

seqtk subseq in.fq name.lst > out.fq

08. 根据输入的reg.bed文件内容提取对应固定区域（region）序列；

seqtk subseq in.fa reg.bed > out.fa

09. 根据reg.bed文件中的区域将对应序列转换成小写；

seqtk seq -M reg.bed in.fa > out.fa

10. 直接对FASTQ文件进行序列随机提取10000 reads，在提取R1和R2两个文件的时候，需要-s值一致，才能使提取的序列id号对应；

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

也可以按比例随机提取序列；

seqtk sample -s100 read1.fq 0.85 > sub1.fq
seqtk sample -s100 read2.fq 0.85 > sub2.fq

如果FASTQ为压缩文件，也可以直接提取，并且在随机提取之后使用gzip重新生成压缩文件；

seqtk sample -s100 read1.fq.gz 10000 |gzip > sub1.fq.gz
seqtk sample -s100 read2.fq.gz 10000 |gzip > sub2.fq.gz

11. 使用Phred算法从两端修剪低质量碱基；

seqtk trimfq in.fq > out.fq

12. 直接指定read左侧和右侧修剪bp长度；

seqtk trimfq -b 5 -e 10 in.fa > out.fa

13. 查找端粒（TTAGGG）n个重复序列；

seqtk telo seq.fa > telo.bed 2> telo.count

0 条评论