1. 数据被区分成训练样本和测试样本,主要的目的是防止我们的模型会出现过拟合,也就是在我们的分析数据中,模型非常好,但是在其他的数据中,就效果不好。
2. 在鲁棒性分析中,采用全部样本,那是因为我们的单因素分析中获得的显著相关的基因比较多,而测试数据集的样本量比较小,不利用鲁棒性分析,所以选择了整个的样本。当然这种做法只是一个处理手段。