两分钟看懂基因组注释GFF文件

随着大数据时代的到来,很多生物科研工作者都接触了基因组相关实验。在做数据分析的时候,会用到一个很重要的文件,就是基因组的注释文件,也就是今天分享内容的主角GFF文件! 什么是GFF文件...

随着大数据时代的到来,很多生物科研工作者都接触了基因组相关实验。在做数据分析的时候,会用到一个很重要的文件,就是基因组的注释文件,也就是今天分享内容的主角GFF文件!


什么是GFF文件



GFF格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的哪里到哪里是基因。GFF格式已经成为序列注释的通用格式。


GFF文件包含了那些信息?


GFF文件由tab键隔开的9列组成,每一列代表不同的信息,下面是各列的说明:



第一列:参考序列,是chromosome or scaffold的编号


第二列:注释信息的来源,一般为数据库例或者注释的机构,如果未知,用“."代替


第三列:注释信息的类型,比如gene、mRNA、exon、CDS、UTR等


第四列:第三列的注释类型在参考序列上的起始位置


第五列:第三列的注释类型在参考序列上的终止位置


第六列:得分,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空


第七列:该基因或转录本位于参考序列的正链(+)或负链(-)上


第八列:这列注释信息仅对第三列为“CDS"的类型有效,表示起始编码的位置,有效值为0、1、2,0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外


第九列:包含众多注释信息,以多个键值对组成的注释信息描述,不同属性之间以分号相隔,信息比较多我们一一解释:


ID--注释信息的编号,在一个GFF文件中必须唯一


Name--注释信息的名称,可以重复;


Alias--别名


Parent--指明feature所从属的上一级ID。用于将exons聚集成transcript,将transripts聚集成gene


Note--备注


Dbxref--数据库索引


以上就是基因组注释文件GFF所包含内容的一个详细的说明,看过之后有没有豁然开朗呢?


更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

  • 发表于 2018-04-22 21:00
  • 阅读 ( 27174 )
  • 分类:基础知识

0 条评论

请先 登录 后评论
landy
landy

37 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章