5 老师您好:关于TCGA的生存分析,用训练集train来做单因素的生存分析筛选有意义的基因,为什么在鲁棒性分析的时候不用训练集,而是整个数据集exprSet呢?

请先 登录 后评论

1 个回答

microRNA

1. 数据被区分成训练样本和测试样本,主要的目的是防止我们的模型会出现过拟合,也就是在我们的分析数据中,模型非常好,但是在其他的数据中,就效果不好。

2. 在鲁棒性分析中,采用全部样本,那是因为我们的单因素分析中获得的显著相关的基因比较多,而测试数据集的样本量比较小,不利用鲁棒性分析,所以选择了整个的样本。当然这种做法只是一个处理手段。


请先 登录 后评论