5 老师,我在学习基因家族视频,用perl脚本预测基因顺式作用元件时出现了问题,提取不了位置信息

老师,是这样的,我把问题完善了一下,我的物种是川桑(Morus notabilis),没有收录在在Ensembl数据库,所以我是在川桑数据库下载的genome,gene,cds及protein。如下图attachments-2018-10-9abXBpaW5bb19883bd335.jpg

然后在NCBI上下载了川桑的GFF注释文件,如下图

attachments-2018-10-s8pO23AI5bb199623d909.jpg

老师,下图是我根据视频学习找到的基因IDattachments-2018-10-u6uNs9HY5bb19f9c81489.jpg然后运行perl脚本get_gene_weizhi,得到gene_weizhi.txt文件,如下图

attachments-2018-10-5neqau0A5bbc6c9a7db35.jpg

一共得到了2万多个结果,我的基因一共才六十几个,我查看了一下GFF文件(下图),发现这2万多个结果(就是NW开头这一栏)是GFF里面所有注释的gene,也就是说不是按照我的基因ID来提取的基因位置,而是将所有基因位置都提取了出来。并且第一幅图里面,得到的位置信息没有第一列(也就是基因ID),第二列是全基因组鸟枪序列(因为我们的这个物种没有基因在染色体位置的信息,是否可以将它看成是染色体,应该是可以提取序列的吧),第三列跟第四列都正常,分别是基因的位置和正负链,所以,我猜想,因为我的基因位置文件缺了一列,所以最后提取不了基因上游的1500序列,可是,老师,我运行get_gene_weizhi.pl后,为什么把GFF里面所有的gene都提取了出来呀,还有第一列的基因ID怎么不见了。


attachments-2018-10-PRiGcbOK5bbc6e0b2c5db.jpg


下图是基因组数据的一部分,NW是鸟枪序列(我们是否可以将它看成一条染色体,这样应该也能提取序列的吧)。


attachments-2018-10-jZ2ZN8Bq5bbc72efd363b.jpg

       所以,老师,我的问题就是,我运行脚本get_gene_weizhi.pl,为什么是把GFF文件里面所有的gene都提取出来啦,并且第一列缺少基因ID,之后我用基因位置文件提取1500bp序列时,为什么提取不出来呀,是否是因为位置文件缺少第一列(基因的ID信息),本人才学疏浅,还望老师赐教

请先 登录 后评论

1 个回答

星哥

attachments-2018-10-35HPiwQD5bbea18c64d58.jpg老师,这是我的GFF文件里面一个基因第八列开始后面的截图

请先 登录 后评论
  • 1 关注
  • 0 收藏,4107 浏览
  • 星哥 提出于 2018-10-10 20:00

相似问题