RNAseq有参转录组数据自主分析课程,在建立基因组索引的时候出现如下问题

网易云课堂《RNAseq有参转录组数据自主分析课程》第4课时,建立基因组索引,运行的命令,sh $scriptdir/index.sh Homo_sapiens.GRCh38.dna.chromosome.22.fa Homo_sapiens.GRCh38.99.chromosome.22.gff3,在服务器上运行,最后获取gene length时候出错:

get gene length and gene.bed from gtf:

RUN CMD: python /home/zpp/work/my_rnaseq/scripts/get_gene_length_from_gtf.py -g Homo_sapiens.GRCh38.99.chromosome.22.gtf -p gene_length

Traceback (most recent call last):

  File "/home/zpp/work/my_rnaseq/scripts/get_gene_length_from_gtf.py", line 49, in <module>

    if kvs['gene_id'] in geneL and kvs['transcript_id'] in geneL[kvs['gene_id']]:

KeyError: 'gene_id'

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

我这边运行是没有问题的,  建议用我们提供的docker镜像进行分析转录组实操课程; 

我们打包好的docker镜像里面安装了很多软件.如果不用我们提供的docker镜像分析,由于软件安装环境问题会报错;

有参转录组实操课程见:attachments-2020-07-C9Wjz8TY5f028f24848bd.png

请在自己的linux服务器中安装docker工具,然后,下载rnaseq镜像,参考课程:https://www.omicsclass.com/article/1181




请先 登录 后评论
zhanggavin2015

老师,您好!能不能给一个单独的从gtf获取gene-length的代码。我在当地服务器运行的的时候课程后面内容都可以通过,总是过卡在获取genelength这里了,十分感谢

课程的scripts目录里面有这个脚本的:get_gene_length_from_gtf.py

谢谢您,我看到有的方法计算基因长度的时候是把所有转录本长度加在一起作为基因长度,有的是选取了其中一个转录本作为基因长度,请问用哪一种好些?

所有的转录本的长度加在一起作为基因长度是错误的;我们这个选取的是最长的转录本代表基因的长度;

请先 登录 后评论