生物汪天天和基因打交道,不过总有人分不清CDS、cDNA、ORF、外显子、内含子等等的概念和关系,今天小编就梳理一下,希望对您的科研有所帮助!
真核生物:
下面先从真核生物开始,小编在网上找了个图片,希望原作者不要见怪。
大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。基因中的编码序列称为外显子(exon),而基因中的非编码序列称为内含子(intron)。在一个结构基因中,编码某一蛋白质不同区域的各个外显子并不是连续地排列在一起的,而是常常被长度不同的内含子所隔离,形成镶嵌排列的断裂方式。
我们常说的“基因”严格来讲是指:负载特定生物遗传信息,能够产生一条多肽链或功能RNA所必需的DNA分子片段,不但包括编码区,还包括5'-端和3'-端两侧特异性序列,虽然这些序列不编码氨基酸,但在基因表达的过程中起着重要的作用。
1. mRNA:
大家平时接触较多的转录组测得是mRNA,并不是严格意义上的基因,而是基因信息的载体,称作Messenger RNA (mRNA)--信使核糖核酸,如下如所示:
真核生物mRNA一般由5′端帽子结构、5′端UTR区、编码区、3′端UTR区和3′端聚腺苷酸尾巴构成,真核生物mRNA通常都有相应的前体。从DNA转录产生的原始转录产物可称作 原始前体(或mRNA前体)。一般认为原始前体要经过hnRNA核不均-RNA的阶段,最终才被加工为成熟的mRNA。所以,生物汪嘴里经常说的什么启动子、增强子、沉默子、顺式作用元件等都是DNA序列上的结构概念,mRNA里面是不包含的!
2. cDNA:
cDNA是以mRNA为模板,在适当引物的存在下,由mRNA经过反转录而得到的DNA,是mRNA链互补的DNA链,其内部已无内含子等结构,值得说明的是,目前火热的二代测序均是先将RNA反转录组成cDNA再进行测序的。
3. CDS与ORF:
这是一个经常被人混淆的两个概念;CDS是Coding sequence的缩写,是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列,注意其与mRNA序列的差异;ORF是open reading frame的缩写,翻译成开放阅读框,是指从一个起始密码子开始到一个终止密码子结束的一段序列,但并不是所有读码框都能表达出蛋白产物;CDS必定是一个ORF,但也可能包括多个ORF,相反,每个ORF不一定都是CDS。
4. 单拷贝基因与基因家族
单拷贝基因指在基因组中只出现一次,多是编码蛋白质的基因,真核生物中有25%~50%的基因是以单个基因存在的,而其余编码蛋白质的基因以基因家族形式存在;基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物,欲更详细了解基因家族形成、特征请参见课程:基因家族分析实操课程。
5. 假基因
假基因也叫伪基因,他是基因家族在进化过程中形成的无功能的残留物。它与正常基因相似,但丧失正常功能的DNA序列,往往存在于真核生物的多基因家族中,一般情况都不被转录,且没有明确生理意义。
原核生物:
原核基因组结构较真核生物要简单很多,一般只有一个环状的DNA分子,基因组中无内含子,少有的重复序列,多为单拷贝基因。
原核生物( 包括病毒) 的mRNA 多是多顺反子,即可以有几个基因同时被转录成一个mRNA,共同使用一个启动调控区,而真核生物多是单顺反子,即一次只转录出一个基因;原核生物mRNA与真核不同,无5′端帽子结构和3′端聚腺苷酸尾巴。
好了,今天就先介绍下这些,假如还有需要整理的信息请下方留言,小编希望与您共同学习进步!
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?多学点数据处理技能:学习链接:转录组标准分析后的数据挖掘
6. 学生物的必学生信技能:linux系统入门
7. 学生物的必学生信技能:Perl语言入门到精通
8. 学生物的必学生信技能:perl语言高级编程
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请扫描下方二维码:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!