随着大数据时代的到来,很多生物科研工作者都接触了基因组相关实验。在做数据分析的时候,会用到一个很重要的文件,就是基因组的注释文件,也就是今天分享内容的主角GFF文件!
什么是GFF文件
GFF格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的哪里到哪里是基因。GFF格式已经成为序列注释的通用格式。
GFF文件包含了那些信息?
GFF文件由tab键隔开的9列组成,每一列代表不同的信息,下面是各列的说明:
第一列:参考序列,是chromosome or scaffold的编号
第二列:注释信息的来源,一般为数据库例或者注释的机构,如果未知,用“."代替
第三列:注释信息的类型,比如gene、mRNA、exon、CDS、UTR等
第四列:第三列的注释类型在参考序列上的起始位置
第五列:第三列的注释类型在参考序列上的终止位置
第六列:得分,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空
第七列:该基因或转录本位于参考序列的正链(+)或负链(-)上
第八列:这列注释信息仅对第三列为“CDS"的类型有效,表示起始编码的位置,有效值为0、1、2,0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外
第九列:包含众多注释信息,以多个键值对组成的注释信息描述,不同属性之间以分号相隔,信息比较多我们一一解释:
ID--注释信息的编号,在一个GFF文件中必须唯一
Name--注释信息的名称,可以重复;
Alias--别名
Parent--指明feature所从属的上一级ID。用于将exons聚集成transcript,将transripts聚集成gene
Note--备注
Dbxref--数据库索引
以上就是基因组注释文件GFF所包含内容的一个详细的说明,看过之后有没有豁然开朗呢?
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!