EggNOG (Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)是基于直系同源蛋白进行分组比对的一个公共资源数据库,由EMBL维护,提供了不同分类水平蛋白的直系同源分组(Orthologous Groups ,OG),包括真核物种、原核物种及病毒的数据信息。数据库对每个同源基因类进行了系统发育树构建、HMM模型构建。可以做GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。EggNOG使用直系同源预测功能注释的方法比传统的序列相似性搜索(即 BLAST 搜索)具有更高的精度,因为它会避免从旁系同源进行注释。
EggNOG数据库提供在线注释工具:eggNOG-mapper(网站:http://eggnog-mapper.embl.de/),可使用预先计算的eggNOG簇和系统发育树,根据快速的直系同源比对进行在线功能注释,用法简单,只需要把自己要注释的基因序列提交上去即可:
eggNOG-mapper在线工具用法简单,但是,用的人多了,自己的任务需要排队很久还不一定能排上。这时我们可以本地构建eggNOG-mapper,利用自己的计算机做快速批量基因功能注释,就不用排队了,具体方法如下:1)数据库下载: EggNOG数据库地址:http://eggnog5.embl.de/download/emapperdb-5.0.2/ ,下载以下两个文件并把这两个文件放到database文件夹中并解压。
$ md5sum eggnog.db eggnog_proteins.dmnd #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf eggnog.db
64fefa838833a6f3e220a06fb9d403cd eggnog_proteins.dmnd
2)利用docker工具搭建EggNOG-mapper注释分析环境,以拟南芥为例:
#下载安装eggnog的docker镜像 docker pull omicsclass/eggnog:latest #启动镜像 #注意这里的 -v 使用了两次 docker run --rm --cpus 8 -m 16G -it -v D:/eggnog:/work -v D:/database:/database omicsclass/eggnog:latest #下载物种所有基因的蛋白序列pep.fa文件放到:D:/eggnog文件夹中 emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database # -m指定diamond方法,默认为hmmer方法。diamond在多于千条序列时才会体现速度优势,少量序列会感觉非常慢,而且结果也没有hmmer的更准确,尤其是对远源注释方面。
3) 注释结果说明:eggnog-mapper会生成三个文件,
query_name: 检索的基因名或者其他ID sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配 seed_orholog_evalue: 最佳匹配的 e-valueseed_ortolog_evalu: 最佳匹配的 bit-scorepredicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号 GO_term: 推测的GO的词条, 未必最新 KEGG_KO: 推测的KEGG KO词条, 未必最新 BiGG_Reactions: BiGG代谢反应的预测结果 Annotation_tax_scope: 对该序列在分类范围的注释 Matching_OGs: 匹配的 eggNOG Orthologous Groupsbest_OG|evalue|score: 最佳匹配的OG(HMM模式才有) COG functional categories: 从最佳匹配的OG中推测出的COG功能分类 eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述
有了eggnog中的GO和KEGG注释结果我们就可以做GO和KEGG富集分析,详细的操作可以观看视频课程:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!