GFF3每一行代表一个序列元件(以#为开头的注释行除外),每一行有且只有9列(也就是每个序列元件有9个属性),列与列只能必须使用tab键来分割,如果某个序列元件的某个属性为空那么必须使用“.”来代替,格式如下:
2L FlyBase transcript 7529 9484 . + . ID=FBtr0300690;Parent=FBgn0031208;Name=CG11023-RC;biotype=protein_coding;transcript_id=FBtr0300690
2L FlyBase five_prime_UTR 7529 7679 . + . Parent=FBtr0300690
2L FlyBase exon 7529 8116 . + . Parent=FBtr0300690;Name=FBtr0300690-1;constitutive=1;ensembl_end_phase=2;ensembl_phase=-1;exon_id=FBtr0300690-E1;rank=1
2L FlyBase CDS 7680 8116 . + 0 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L FlyBase exon 8193 8589 . + . Parent=FBtr0300690;Name=FBtr0300690-2;constitutive=0;ensembl_end_phase=0;ensembl_phase=2;exon_id=FBtr0300690-E2;rank=2
2L FlyBase CDS 8193 8589 . + 1 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L FlyBase CDS 8668 9276 . + 0 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
这9列从左到右分别是:
1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)
3. type - 序列元件的类型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置,从1开始计数
6. score - 该序列元件的打分,一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链,反之亦反
8. phase - 可以为“0”、“1”、“2”,“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑,“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基,依次类推。
9. attributes - 该序列元件的一些其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于序列元件是很复杂的,一个序列元件(例如:exon)可能属于另外一个序列元件(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome
GFF3格式的详细介绍,可以去GMOD wiki官网查看。
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!