eggNOG批量注释基因组数据库

eggNOG批量注释基因组数据库

数据库下载:  

http://eggnog5.embl.de/download/emapperdb-5.0.2/

http://eggnog5.embl.de/download/


attachments-2021-07-DDmr6w2n60e281389d095.png

$ md5sum eggnog.db eggnog_proteins.dmnd   #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf  eggnog.db
64fefa838833a6f3e220a06fb9d403cd  eggnog_proteins.dmnd

利用docker工具eggnog进行注释,以拟南芥为例:


#非模式物种GO KEGG注释与富集分析
#eggnog 数据库下载之后解压,放到一个目录中

#启动镜像
#docker run --rm --cpus 8 -m 16G -it -v /share/nas1/huangls/test/eggnog:/work -v /share/work/database/eggNOG/emapperdb-5.0.2/:/database  omicsclass/eggnog:latest


#一个基因提取一个pep代表序列
#python scripts/get_gene_fa.py --gff Arabidopsis_thaliana.TAIR10.31.gff3 \
#  -f Arabidopsis_thaliana.TAIR10.31.pep.all.fa  -p pep

#蛋白序列批量注释
emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override\
  --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database/



-m指定diamond方法,默认为hmmer方法。diamond在多于千条序列时才会体现速度优势,少量序列会感觉非常慢,而且结果也没有hmmer的更准确,尤其是对远源注释方面。

  • 发表于 2021-07-05 11:57
  • 阅读 ( 4072 )
  • 分类:转录组

2 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

700 篇文章

作家榜 »

  1. omicsgene 700 文章
  2. 安生水 348 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 75 文章
  8. CORNERSTONE 72 文章