1 、Nr:NCBI非冗余蛋白数据库,包含的信息很全面, 注释到的基因较多。
2、COG :中文释义即“同源蛋白簇”。COG 分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为 COG 数据库;真核生物的一般称为 KOG 数据库。
3、SWISS-PROT:经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库中的蛋白质的功能经过了试验验证,注释是精确的。注释的蛋白数量不多。
4、TrEMBL:数据库全称“Translation
of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据。(unreviewed, automatically annotated),不难看出,相比之下,sp数据库更可靠。
5、KEGG:翻译成中文是京都基因与基因组百科全书,是一个整合了基因组、化学和系统功能信息的数据库,旨在揭示生命现象的遗传与化学蓝图。它是由人工创建的一个知识库, KEGG 数据库最优的地方在于拥有描绘已知通路的代谢通路图;另外 KEGG中有一个“专有名词”KO(KEGG
Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,一般用字母K后面加5个数字表示。KEGG_ID 是pathway的id,表示方法是2-4个字母,后面跟上5个数字,
6、GO(gene ontology),是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的数据库,按照三大类别BP(生物学过程), MF(分子功能), CC(细胞组分) 对基因的产物-蛋白质进行了分类;并能随着研究不断深入而更新的语言词汇标准. 在GO数据库中,本质上是一个有向无环图的数据结构,在三大类别之下,又有小的分类层级,一层一层的分类下去;对于某个具体的GO号来说,代表了一组同源蛋白,拥有相似的结构和功能
7、Pfam(http://pfam.sanger.ac.uk/:是一个被广泛使用的蛋白家族数据库,它有两个数据库,高质量,手工确定的Pfam-A,自动注释的Pfam-B数据库。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!