部分分析数据及结果.zip我在ensembl上下载了一个基因组,该基因组是用gtf格式进行注释的,用perl脚本无法建立基因与mRNA的对应关系(mRNAid_to_geneid/ geneid_to_mRNAid),分析结果不能显示mRNA ID。
于是我在网站搜索到GFF与GTF格式转换(https://www.omicsclass.com/article/355)的方法,并用该命令进行了格式转换,但发现转换后的gff3文件内容不全,第三列凡是gene的行都没有了,第三列transcript变成了mRNA,该行后面多了个geneID=,其余行很多注释信息都没了。
用这个转换格式后的gff3文件也没法完成基因与mRNA的对应关系分析。分析时显示 Use of uninitialized value $pid in concatenation (.) or string at mRNAid_to_geneid.pl line 38, <IN> line 3.等错误信息。生成的文件将gene ID或mRNA ID显示在一行内。
于是我尝试将gtf文件中的内容进行了替换,手动改成gff格式,主要修改内容如下:
原名称 | 修改后名称 |
gene_id " | ID= |
gene_version " | version= |
gene_source " | source= |
gene_biotype " | biotype= |
transcript_id " | Parent= |
transcript_version " | transversion= |
transcript_source " | transsource= |
transcript_biotype " | transbiotype= |
transcript | mRNA (第三列的transcript换成mRNA) |
将格式修改后,运行脚本,其结果与用gffread转换格式后分析获得的文件相同,还是无法完成分析。至此,再没其他办法,老师写的perl脚本太深奥,看了半天无从下手。
所以请问,gtf文件是否可以手动修改后使用?我手动修改的无法完成分析,不知道问题出在哪里?如果不能用手动修改,那有什么好的办法可转换成gff?有无针对gtf注释进行分析的脚本?
附件说明:
file1 gtf注释文件(部分)
file2 用gffread命令转换格式后的gff3文件,无gene行
file3 上述格式转换后分析获得的mRNA2geneID文件
file4 手动修改gtf后的文件