数据库下载:
http://eggnog5.embl.de/download/emapperdb-5.0.2/
http://eggnog5.embl.de/download/
$ md5sum eggnog.db eggnog_proteins.dmnd #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf eggnog.db
64fefa838833a6f3e220a06fb9d403cd eggnog_proteins.dmnd
利用docker工具eggnog进行注释,以拟南芥为例:
#非模式物种GO KEGG注释与富集分析 #eggnog 数据库下载之后解压,放到一个目录中 #启动镜像 #docker run --rm --cpus 8 -m 16G -it -v /share/nas1/huangls/test/eggnog:/work -v /share/work/database/eggNOG/emapperdb-5.0.2/:/database omicsclass/eggnog:latest #一个基因提取一个pep代表序列 #python scripts/get_gene_fa.py --gff Arabidopsis_thaliana.TAIR10.31.gff3 \ # -f Arabidopsis_thaliana.TAIR10.31.pep.all.fa -p pep #蛋白序列批量注释 emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override\ --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database/
-m指定diamond方法,默认为hmmer方法。diamond在多于千条序列时才会体现速度优势,少量序列会感觉非常慢,而且结果也没有hmmer的更准确,尤其是对远源注释方面。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!