一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。
基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。网址如下
http://pfam.xfam.org/
在该数据库中,提供了以下3个不同层级蛋白质家族信息。
1.family
每个family以PF编号唯一标识,所有的family可以分为以下6种类型:
Family
A collection of related protein regions
Domain
A structural unit
Repeat
A short unit which is unstable in isolation but forms a stable structure when multiple copies are present
Motifs
A short unit found outside globular domains
Coiled-Coil
Regions that predominantly contain coiled-coil motifs, regions that typically contain alpha-helices that are coiled together in bundles of 2-7.
Disordered
Regions that are conserved, yet are either shown or predicted to contain bias sequence composition and/or are intrinsically disordered (non-globular).
2. clan
对多个family进行相似性分析,将具有相似的三维结构或者相同motif的family归为一个clan, 可以看做是superfamily的概念,每个clan以CL编号标识,示意如下
3. proteones
物种的蛋白质组信息,就是该物种内所有的蛋白质family 信息.
以上信息可以,可以通过以下方法,浏览pfam数据库得到:
下面主要介绍pfam数据库常用的三种功能:
1. SEQUENCE SEARCH
如果你有一条蛋白质序列,想知道这条蛋白质序列上有哪些结构域,可以用这个入口快速找到结构域信息:点击->SEQUENCE SEARCH->输入序列->GO
然后就可以得到这条序列上的详细信息:
2. KEYWORD SEARCH
如果你知道你要研究的基因家族相关功能关键字,或者名称等等信息,想知道在pfam数据库当中,是否存在这个家族的pfam号。这时候可以使用keyword search这个功能,快速找到pfam数据库中是否有收录这个家族的的pfam号,然后就可以下载hmm模型文件,查看motif等信息,用于后续研究。
3. JUMP TO
当你通过读文献阅读,知道某个家族的pfam号的时候,就可以通过这个功能,快速的找到相应家族的信息:
延伸阅读:
获取MOTIF 位置信息矢量图 | 做韦恩图?自己搞定!| Mapman植物代谢通路注释图 |MeV画漂亮的热图 | 绘制基因染色体位置图| 分分钟教你绘制基因结构图 | 轻松搞定Krona图 | 进化树+基因结构+motif—1张图全显示| 基因组间共线性图 | 多方法、多版本的微生物网络图绘制课程 | 热图竟然还能用Excel来画 | Cytoscape-网络图绘图技巧 | 怎么做一张好看的分类学树状图 | 绘一棵超酷炫的系统发育树!
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、biolinux搭建生物信息分析环境、linux命令处理生物大数据、perl入门到精通、perl语言高级、R语言画图、R语言快速入门与提高
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、 GEO芯片数据不同平台标准化 、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代fastq测序数据解读、
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!