近期常用命令记录——比对并提取fq,ncbi下载并转化为fq,序列提取等

记录近期常用命令

一、测序数据比对到目标序列,并提取比对到的reads,得到fsatq文件


1.二代数据比对  bwa-mem2

#检索引并比对
bwa-mem2 index reads.fa
bwa-mem2 mem -t 20 reads.fa 1.clean.fq.gz >alignment.sam
#sam文件转化为bam文件
samtools sort -@ 4 -O bam -o align1.sorted.bam alignment1.sam
#bam文件索引
samtools index align1.sorted.bam
#提取比对到参考序列上的比对结果
samtools view -bF 4 align1.sorted.bam > mapped1.bam
#bam文件转化为fq文件
samtools bam2fq mapped1.bam > 1.fastq
gzip 1.fastq


2.三代数据比对 minimap2

#建索引
minimap2 -d reads.min reads.fa -t 30
#比对
minimap2 -ax map-ont reads.min ont_clean.fq.gz -t 30 >alignment3.sam
#sam文件转化为bam文件
samtools sort -@ 4 -O bam -o align3.sorted.bam alignment3.sam
#bam文件索引
samtools index align3.sorted.bam
#提取比对到参考序列上的比对结果
samtools view -bF 4 align3.sorted.bam > mapped3.bam
#bam文件转化为fq文件
samtools bam2fq mapped3.bam > 3.fastq
gzip 3.fastq

二、序列提取或截取


1.序列提取 seqkit
#将需要挑选的序列名称写入list.txt,之后提取
seqkit grep -f list.txt assembly.fasta >reads.fasta

2.序列截取 EMBOSS下的小工具extractseq
extractseq -sequence C.fa -region 5-6117 -outseq in.fa

三、NCBI下载SRR并转换为fastq文件  


获取下载链接之后进行下载,以ERR6054995为例     fasterq-dump工具

wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/ERR6054995/ERR6054995
nohup fasterq-dump --split-3 ./ERR6054995 &             #SRR文件需指定路径,时间较短,速度快,但不能用--gzip参数
gzip ERR6054995-1.fastq                                 #压缩为gz格式
gzip ERR6054995-2.fastq
  • 发表于 2023-10-18 13:37
  • 阅读 ( 1138 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
星莓
星莓

生物信息工程师

58 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章