GDC上有TCGA的公开的转录组数据可以下载, 但是转录组数据中其实包括了编码蛋白的基因,lncRNA, 假基因等不同的基因的表达量,可以基于lncRNA对应的基因ID,从中抽提表达量。 可以参考我的文章《从GTF中提取lncRNA的编号和名称》
回答于 2018-07-04 11:30
这种情况是存在的,不过比较少。 遇到这种问题,需要看一下为什么会有重复,这个一般在样本信息中有体现,之后基于研究的目的,筛选研究情况对应的样本。 如果临床信息显示,完全一样,那就随机选一个或者合并取平均
回答于 2018-07-04 11:22
GDC上的转录组数据,都是采用HTseq-count 进行定量的,之后再转换成FPKM 和 FPKM-UQ 我推荐采用Count 值,因为: 1. 下游进行差异分析的软件,比如DESeq2, edgeR都是采用Count值, 2. Count值,也可以转换成FPKM和FPKM-UQ
回答于 2018-07-04 11:16
这个可以采用KEGG Mapper 按照下图3步来完成。 1. 如果研究的物种,在KEGG中有注释,那么输入 基因的名称 + 颜色 即可 2. 如果该物种在KEGG中没有注释,则需要采用KEGG的 KAAS进行比对注释,获得基因对应的KO号。 输入KO号 + 颜色
回答于 2018-07-04 09:53
针对KEGG中没有注释的物种,需要将你的基因先与KEGG数据库进行序列比对,找到对应的KO编号,再关联到pathway 上。可以采用如下步骤: 1. KEGG序列比对:采用KEGG的 KAAS进行比对注释,获得基因对应的KO号 2. KO 和pathway对应:可以采用KEGG Mapper 进行分析着色和可视化
回答于 2018-07-03 10:07
1. 如果不知道一个命令如何使用,可以采用-h 或者 --help 选项来查看帮助,比如:fastqc -h 从这帮助信息我们知道,-o 输出的是目录 , 所以你的命令应该是,去掉后面的result.zip,这个文件不会产生: fastqc -o ./ --noextract ./sequence.fq 这就会在输出目录参数fastqc 的结果。 2. fastx_barcode_splitter.pl 的使用...
回答于 2018-06-25 09:52