EggNOG基因序列批量注释

介绍EGGnog数据库批量注释基因

EggNOG (Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)是基于直系同源蛋白进行分组比对的一个公共资源数据库,由EMBL维护,提供了不同分类水平蛋白的直系同源分组(Orthologous Groups ,OG),包括真核物种、原核物种及病毒的数据信息。数据库对每个同源基因类进行了系统发育树构建、HMM模型构建。可以做GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。EggNOG使用直系同源预测功能注释的方法比传统的序列相似性搜索(即 BLAST 搜索)具有更高的精度,因为它会避免从旁系同源进行注释。

在线注释注释工具


attachments-2021-10-JLra13Pv616115738fe44.png

EggNOG数据库提供在线注释工具:eggNOG-mapper(网站:http://eggnog-mapper.embl.de/),可使用预先计算的eggNOG簇和系统发育树,根据快速的直系同源比对进行在线功能注释,用法简单,只需要把自己要注释的基因序列提交上去即可:

attachments-2021-10-mETfHHQM6161158329e0f.png

本地化构建注释

eggNOG-mapper在线工具用法简单,但是,用的人多了,自己的任务需要排队很久还不一定能排上。这时我们可以本地构建eggNOG-mapper,利用自己的计算机做快速批量基因功能注释,就不用排队了,具体方法如下:1)数据库下载:  EggNOG数据库地址:http://eggnog5.embl.de/download/emapperdb-5.0.2/  ,下载以下两个文件并把这两个文件放到database文件夹中并解压。
attachments-2021-10-9nElo0NX61611590a725c.png

$ md5sum eggnog.db eggnog_proteins.dmnd   #下载完成之后核对md5值
065763df8f1593dc6d08c5ce06401fcf  eggnog.db
64fefa838833a6f3e220a06fb9d403cd  eggnog_proteins.dmnd

2)利用docker工具搭建EggNOG-mapper注释分析环境,以拟南芥为例:

#下载安装eggnog的docker镜像
docker pull omicsclass/eggnog:latest
#启动镜像
#注意这里的 -v 使用了两次
docker run --rm --cpus 8 -m 16G -it -v D:/eggnog:/work -v D:/database:/database  omicsclass/eggnog:latest

#下载物种所有基因的蛋白序列pep.fa文件放到:D:/eggnog文件夹中
emapper.py -i pep.fa -o pep -m diamond --cpu 8 --seed_ortholog_evalue 1e-5 --override  --dmnd_db /database/eggnog_proteins.dmnd --data_dir /database

# -m指定diamond方法,默认为hmmer方法。diamond在多于千条序列时才会体现速度优势,少量序列会感觉非常慢,而且结果也没有hmmer的更准确,尤其是对远源注释方面。


3) 注释结果说明:eggnog-mapper会生成三个文件,

  • [project_name].emapper.hmm_hits:  记录每个用于搜索序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
  • [project_name].emapper.seed_orthologs: 记录每个用于搜索序列对的的最佳的OG,也就是[project_name].emapper.hmm_hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
  • [project_name].emapper.annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取,一共有13列。[project_name].emapper.annotations每一列对应的记录如下:
query_name: 检索的基因名或者其他ID
sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
seed_orholog_evalue: 最佳匹配的
e-valueseed_ortolog_evalu: 最佳匹配的
bit-scorepredicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号
GO_term: 推测的GO的词条, 未必最新
KEGG_KO: 推测的KEGG KO词条, 未必最新
BiGG_Reactions: BiGG代谢反应的预测结果
Annotation_tax_scope: 对该序列在分类范围的注释
Matching_OGs: 匹配的
eggNOG Orthologous Groupsbest_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述

有了eggnog中的GO和KEGG注释结果我们就可以做GO和KEGG富集分析,详细的操作可以观看视频课程:

attachments-2021-10-qfDEtniI616115a9a820c.png

  • 发表于 2021-10-09 12:08
  • 阅读 ( 7783 )
  • 分类:转录组

相关问题

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章