转录组分析基因注释常用的数据库

转录组分析常用数据库

1 、Nr：NCBI非冗余蛋白数据库，包含的信息很全面, 注释到的基因较多。

2、COG ：中文释义即“同源蛋白簇”。COG 分为两类，一类是原核生物的，另一类是真核生物。原核生物的一般称为 COG 数据库；真核生物的一般称为 KOG 数据库。

3、SWISS-PROT：经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库中的蛋白质的功能经过了试验验证，注释是精确的。注释的蛋白数量不多。

4、TrEMBL：数据库全称“Translation of EMBL”，是从EMBL中的cDNA序列翻译得到的，其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据。(unreviewed, automatically annotated)，不难看出，相比之下，sp数据库更可靠。

5、KEGG：翻译成中文是京都基因与基因组百科全书，是一个整合了基因组、化学和系统功能信息的数据库，旨在揭示生命现象的遗传与化学蓝图。它是由人工创建的一个知识库， KEGG 数据库最优的地方在于拥有描绘已知通路的代谢通路图;另外 KEGG中有一个“专有名词”KO(KEGG Orthology)，它是蛋白质(酶)的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上KO(或K)标签，一般用字母K后面加5个数字表示。KEGG_ID 是pathway的id，表示方法是2-4个字母，后面跟上5个数字，

6、GO(gene ontology)，是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的数据库，按照三大类别BP(生物学过程), MF(分子功能), CC(细胞组分) 对基因的产物-蛋白质进行了分类；并能随着研究不断深入而更新的语言词汇标准. 在GO数据库中，本质上是一个有向无环图的数据结构，在三大类别之下，又有小的分类层级，一层一层的分类下去；对于某个具体的GO号来说，代表了一组同源蛋白，拥有相似的结构和功能

7、Pfam（http://pfam.sanger.ac.uk/：是一个被广泛使用的蛋白家族数据库，它有两个数据库，高质量，手工确定的Pfam-A，自动注释的Pfam-B数据库。

发表于 2018-06-01 13:42
阅读 ( 14511 )
分类：转录组

转录组分析基因注释常用的数据库

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »