STAR比对软件的使用

相对其他比对软件而言,STAR的比对速度极快,如果有足够的内存(至少需要30G),就可以用STAR来分析。

1. 下载安装(linux)

wget -c https://github.com/alexdobin/STAR/archive/2.7.3a.tar.gz

tar -xvzf 2.7.3a.tar.gz

cd STAR/source

make STAR

2. STAR的使用

分为两部分:建索引和序列比对

(1)建索引

STAR --runThreadN 6 \

--runMode genomeGenerate \

--genomeDir GRCm38 \

--genomeFastaFiles GRCm38.p5.genome.fa  \

--sjdbGTFfile  gencode.vM13.annotation.gtf  \

--sjdbOverhang 125

参数说明:

--runThreadN:设置线程数,线程数越大越占内存

--runMode:运行模式,默认为比对,第一步一定要设置。

--genomeDir:生成的索引文件输出目录

--genomeFastaFiles:基因组fasta文件

--sjdbGTFfile:GTF注释文件

--sjdbOverhang:reads长度减1

构建成功后会在指定的输出目录下生成如下文件:

attachments-2020-12-9yWtmO6y5fdac7f98932d.png(2)序列比对

STAR--genomeDir SNP_Analysis/genomeDir \

--readFilesInsample1.clean.fq.gz sample2.clean.fq.gz \

--runThreadN4 \

--sjdbOverhang  125  \

--readFilesCommand zcat  \

--outSAMtype BAM SortedByCoordinate \

--twopassMode Basic

参数说明:

--runThreadN:设置线程数,线程数越大内存

--genomeDir:生成的索引文件输出目录

--readFilesIn:原始测序文件

--sjdbOverhang:值为测序read的长度减1,是在注释可变剪切序列的时使用的最大长度值

--readFilesCommand:读文件的命令,说明gz结尾的压缩文件

--outSAMtype:输出文件格式(默认输出排序的BAM文件)

--twopassMode:(None/Basic)为了发现更加灵敏的new junction,建议使用2-pass mode,其能增加检测到的new junction数目,使得更多的splices reads能mapping到new junction

运行过程:

attachments-2020-12-vdZBImY95fdac81fab388.png

输出文件:

attachments-2020-12-962H1Xez5fdac828732bd.png

参考文章:https://pubmed.ncbi.nlm.nih.gov/23104886/

此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘

5. 微生物16S/ITS/18S分析原理及结果解读

6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:

http://m.study.163.com/provider/400000000234009/index.htm?share=1&shareId=1433306807

  • 发表于 2020-12-17 10:54
  • 阅读 ( 6530 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
Morii
Morii

15 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 80 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章