数据分析训练集和测试集,这个没有固定的分配比例,主要看样本量,需要保证测试样本中能均匀覆盖各类样本。样本少的话,尽量等比例分,样本多的话,可以增大训练样本的比例。
回答于 2018-09-19 17:40
你这个是GTF文件中的结果吧? 你这个不行,需要采用其他的定量软件进行定量,如HTSeq-count。
回答于 2018-09-19 09:24
1. 2500 :我在备课时,就知道中位生存期在这个数字附近。 你需要基于你的项目进行调整。 2. 样品编号有重复:那是不是你用的样本不只是癌症的数据,还有癌旁组织呢?具体得看你的样本为什么重复。
回答于 2018-09-18 14:39
1. TPM和FPKM都是基因表达量的一种标准化方式。代表基因的表达量。 2. 0 只代表单个基因在某个样本中没有表达量。 如果该基因在其他样本中有表达量,并达到显著差异的标准的话,那也有可能是差异基因。 3. 一般我们会对TPM 或者FPKM 进行筛选,比如只有在大部分样本中FPKM大于1的基因,才能做下游的分析。
回答于 2018-09-17 17:33
您好,基因太少的话,没有意义。 因为WGCNA需要构建一个无尺度的网络,你的基因太少,形成的网络也小,无法达到无尺度网络的要求。
回答于 2018-09-17 15:39
1. 你可以看看里面的代码,是需要3个参数 perl gtf_extra_biotype.pl biotype_classs.txt gencode.v22.annotation.gtf gene perl gtf_extra_biotype.pl biotype_classs.txt gencode.v22.annotation.gtf lncRNA 2. 如果你有兴趣的话, 建议你学习一下perl 课程: 《Perl语言快速入门》 和 《Perl语言...
回答于 2018-09-16 20:32
1. 数据被区分成训练样本和测试样本,主要的目的是防止我们的模型会出现过拟合,也就是在我们的分析数据中,模型非常好,但是在其他的数据中,就效果不好。 2. 在鲁棒性分析中,采用全部样本,那是因为我们的单因素分析中获得的显著相关的基因比较多,而测试数据集的样本量比较小,不利用鲁棒性分析,所以选择了整个的样本...
回答于 2018-09-16 20:20
我在TCGA课程的《lncRNA 表达量提取》 章节 介绍了一下如何区分和提取lncRNA 1. GDC 采用的GTF 是 V22 的,所以我们只能选择V22版本,不然ID可能对不上。 2. lncRNA 和 gene 是基于Ensembl 上的biotype 进行的区分。
回答于 2018-09-16 20:12