Seqtk工具地址:https://github.com/lh3/seqtk
Seqtk工具命令:
操作举例:
01. 将FASTQ格式文件转换成FASTA格式;
seqtk seq -a in.fq.gz > out.fa
02. 将FASTQ(Illumina 1.3+)格式文件转换成FASTA格式,并将质量低于20的碱基位点(base)转换成小写或N;
seqtk seq -aQ64 -q20 in.fq > out.fa #将质量低于20的碱基位点(base)转换成小写 seqtk seq -aQ64 -q20 -n N in.fq > out.fa #将质量低于20的碱基位点(base)转换成N
03. 对FASTA/FASTQ长行进行折叠并删除FASTA/FASTQ注释;
seqtk seq -Cl60 in.fa > out.fa
05. 将多行FASTQ转换成4行FASTQ
seqtk seq -l0 in.fq > out.fq
06. 对FASTA/FASTQ序列做反向互补
seqtk seq -r in.fq > out.fq
07. 根据输入的name.lst文件内容提取对应序列,name.lst文件格式为每行一个序列名;
seqtk subseq in.fq name.lst > out.fq
08. 根据输入的reg.bed文件内容提取对应固定区域(region)序列;
seqtk subseq in.fa reg.bed > out.fa
09. 根据reg.bed文件中的区域将对应序列转换成小写;
seqtk seq -M reg.bed in.fa > out.fa
10. 直接对FASTQ文件进行序列随机提取10000 reads,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应;
seqtk sample -s100 read1.fq 10000 > sub1.fq seqtk sample -s100 read2.fq 10000 > sub2.fq
也可以按比例随机提取序列;
seqtk sample -s100 read1.fq 0.85 > sub1.fq seqtk sample -s100 read2.fq 0.85 > sub2.fq
如果FASTQ为压缩文件,也可以直接提取,并且在随机提取之后使用gzip重新生成压缩文件;
seqtk sample -s100 read1.fq.gz 10000 |gzip > sub1.fq.gz seqtk sample -s100 read2.fq.gz 10000 |gzip > sub2.fq.gz
11. 使用Phred算法从两端修剪低质量碱基;
seqtk trimfq in.fq > out.fq
12. 直接指定read左侧和右侧修剪bp长度;
seqtk trimfq -b 5 -e 10 in.fa > out.fa
13. 查找端粒(TTAGGG)n个重复序列;
seqtk telo seq.fa > telo.bed 2> telo.count
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!