这步perl只是提取了 GTF文件中不同ID的对应关系;
后面的基因富集用的clusterprofile 这个R包你可以看看帮助;
老师,我在学习转录组分析的过程中遇见了一些问题。
转录组自主分析的课程中,在学习的过程中,感觉很辛苦。基因表达定量生成的矩阵文件gene_read_counts_table_all_final.tsv中的基因的ID是这种:ENSG00000063515和MSTRG.1。到了基因功能富集分析这节课的时候,课程用的基因ID又变成了AT1G02350。请问老师,这种ID的转化如何进行的?整个课程中并没有提到这一块。
是不是下面这条命令没有讲解呢?perl -ne 'if ($_ =~ /gene_id\s\"(ENSG\S+)\"\;/) { $id = $1; $name = undef; if ($_ =~ /gene_name\s\"(\S+)"\;/) { $name = $1; }; }; if ($id && $name) {print "$id\t$name\n";} if ($_=~/gene_id\s\"(ERCC\S+)\"/){print "$1\t$1\n";}' /var/data/work/refs/chr22_with_ERCC92.gtf | sort | uniq > ENSG_ID2Name.txt
head ENSG_ID2Name.txt。如果是,请详细帮我们讲解一下,谢谢!这个讲解,我看您跳过了这一条命令。