EggNOG基因序列批量注释

介绍EGGnog数据库批量注释基因

EggNOG (Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)是基于直系同源蛋白进行分组比对的一个公共资源数据库，由EMBL维护，提供了不同分类水平蛋白的直系同源分组（Orthologous Groups ，OG），包括真核物种、原核物种及病毒的数据信息。数据库对每个同源基因类进行了系统发育树构建、HMM模型构建。可以做GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。EggNOG使用直系同源预测功能注释的方法比传统的序列相似性搜索（即 BLAST 搜索）具有更高的精度，因为它会避免从旁系同源进行注释。

在线注释注释工具

EggNOG数据库提供在线注释工具：eggNOG-mapper（网站：http://eggnog-mapper.embl.de/），可使用预先计算的eggNOG簇和系统发育树，根据快速的直系同源比对进行在线功能注释，用法简单，只需要把自己要注释的基因序列提交上去即可：

本地化构建注释

eggNOG-mapper在线工具用法简单，但是，用的人多了，自己的任务需要排队很久还不一定能排上。这时我们可以本地构建eggNOG-mapper，利用自己的计算机做快速批量基因功能注释，就不用排队了，具体方法如下：1）数据库下载： EggNOG数据库地址：http://eggnog5.embl.de/download/emapperdb-5.0.2/ ，下载以下两个文件并把这两个文件放到database文件夹中并解压。

$ md5sum eggnog.db eggnog_proteins.dmnd   #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf  eggnog.db
64fefa838833a6f3e220a06fb9d403cd  eggnog_proteins.dmnd

2）利用docker工具搭建EggNOG-mapper注释分析环境，以拟南芥为例：

#下载安装eggnog的docker镜像
docker pull omicsclass/eggnog:latest
#启动镜像
#注意这里的 -v 使用了两次
docker run --rm --cpus 8 -m 16G -it -v D:/eggnog:/work -v D:/database:/database  omicsclass/eggnog:latest

#下载物种所有基因的蛋白序列pep.fa文件放到:D:/eggnog文件夹中
emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override  --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database

# -m指定diamond方法，默认为hmmer方法。diamond在多于千条序列时才会体现速度优势，少量序列会感觉非常慢，而且结果也没有hmmer的更准确，尤其是对远源注释方面。

3) 注释结果说明：eggnog-mapper会生成三个文件，

[project_name].emapper.hmm_hits: 记录每个用于搜索序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
[project_name].emapper.seed_orthologs: 记录每个用于搜索序列对的的最佳的OG，也就是[project_name].emapper.hmm_hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
[project_name].emapper.annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取，一共有13列。[project_name].emapper.annotations每一列对应的记录如下：

query_name: 检索的基因名或者其他ID
sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
seed_orholog_evalue: 最佳匹配的
e-valueseed_ortolog_evalu: 最佳匹配的
bit-scorepredicted_gene_name: 预测的基因名，特别指的是类似AP2有一定含义的基因名，而不是AT2G17950这类编号
GO_term: 推测的GO的词条， 未必最新
KEGG_KO: 推测的KEGG KO词条， 未必最新
BiGG_Reactions: BiGG代谢反应的预测结果
Annotation_tax_scope: 对该序列在分类范围的注释
Matching_OGs: 匹配的
eggNOG Orthologous Groupsbest_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述

有了eggnog中的GO和KEGG注释结果我们就可以做GO和KEGG富集分析，详细的操作可以观看视频课程：

发表于 2021-10-09 12:08
阅读 ( 8455 )
分类：转录组

EggNOG基因序列批量注释

在线注释注释工具

本地化构建注释

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »