eggNOG批量注释基因组数据库

数据库下载：

http://eggnog5.embl.de/download/emapperdb-5.0.2/

http://eggnog5.embl.de/download/

$ md5sum eggnog.db eggnog_proteins.dmnd   #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf  eggnog.db
64fefa838833a6f3e220a06fb9d403cd  eggnog_proteins.dmnd

利用docker工具eggnog进行注释，以拟南芥为例：

#非模式物种GO KEGG注释与富集分析
#eggnog 数据库下载之后解压，放到一个目录中

#启动镜像
#docker run --rm --cpus 8 -m 16G -it -v /share/nas1/huangls/test/eggnog:/work -v /share/work/database/eggNOG/emapperdb-5.0.2/:/database  omicsclass/eggnog:latest


#一个基因提取一个pep代表序列
#python scripts/get_gene_fa.py --gff Arabidopsis_thaliana.TAIR10.31.gff3 \
#  -f Arabidopsis_thaliana.TAIR10.31.pep.all.fa  -p pep

#蛋白序列批量注释
emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override\
  --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database/

-m指定diamond方法，默认为hmmer方法。diamond在多于千条序列时才会体现速度优势，少量序列会感觉非常慢，而且结果也没有hmmer的更准确，尤其是对远源注释方面。

发表于 2021-07-05 11:57
阅读 ( 4766 )
分类：转录组

eggNOG批量注释基因组数据库

你可能感兴趣的文章

相关问题

2 条评论

作家榜 »