单因素生存分析过后,依然会有非常多显著的单因素,那么进行多因素分析之前,如何选择单因素呢?
这就要采用一些降维的方法,选择单因素中比较重要的一些单因素进行下游分析。方法有很多了,其中采用R包rbsurv进行分析比较多见。
具体操作如下:
# 先看看操作的数据框的结构 > head(exprSet)[0:6, 0:6] bcr_patient_barcode time status NEAT1 MIR205HG LRRC75A_AS1 1 TCGA-2W-A8YY 148 0 37464.39 19.90881 24651.08 2 TCGA-4J-AA1J 226 0 81280.86 30453.54242 12288.18 3 TCGA-BI-A0VR 1505 0 57859.60 23164.53371 22721.61 4 TCGA-BI-A0VS 925 0 39732.40 34618.98183 13592.70 5 TCGA-BI-A20A 72 0 78514.49 29501.88646 14386.92 6 TCGA-C5-A0TN 348 1 47486.18 23953.34249 20335.92 ############################################################ # 单因素中显著的基因,进一步鲁棒性筛选(此时选择全部的样本比较好) sign_gene_expr <-t(exprSet[sign_gene_id]) dim(sign_gene_expr) # 将矩阵的值转换成numeric rust_test<-matrix(as.numeric(unlist(sign_gene_expr)),nrow=nrow(sign_gene_expr)) row.names(rust_test) <- row.names(sign_gene_expr) time <- exprSet$time status <- exprSet$status fit <-rbsurv(time=time, status=status, x=rust_test, method="efron", max.n.genes=30, n.iter = 10,n.fold = 3,gene.ID =row.names(rust_test)) # 鲁棒性分析结果 > fit$model Seq Order Gene nloglik AIC Selected 0 1 0 0 269.17 538.35 110 1 1 AC092614.2 261.86 525.71 * 2 1 2 RP11_415F23.3 256.66 517.32 * 3 1 3 RP11_395A13.2 254.47 514.95 * 4 1 4 RP4_728D4.2 252.83 513.66 * 5 1 5 DBH_AS1 252.04 514.07 * 6 1 6 RP11_731C17.2 247.11 506.22 * 7 1 7 RP11_621L6.3 243.34 500.68 * 8 1 8 RP11_415F23.4 243.21 502.41 * 9 1 9 RP11_147L13.15 243.00 504.00 * 10 1 10 RP11_753H16.5 240.87 501.75 * 11 1 11 RP11_80H18.4 239.85 501.70 * 12 1 12 AF064858.10 238.96 501.93 * 13 1 13 RP11_261C10.5 238.50 503.00 * 14 1 14 RP11_960L18.1 237.01 502.01 * 15 1 15 AC093110.3 237.00 503.99 * 16 1 16 RP11_1096G20.5 235.03 502.05 * 17 1 17 STARD4_AS1 230.52 495.04 * 18 1 18 RP11_166D19.1 229.46 494.91 * 19 1 19 RP11_12M5.4 226.71 491.41 * 20 1 20 AC005592.2 225.17 490.35 * 21 1 21 RP11_33N14.5 220.06 482.12 * 22 1 22 RP11_713N11.6 219.32 482.64 * 23 1 23 RP11_823E8.3 219.26 484.51 * 24 1 24 RP3_508I15.21 217.63 483.25 * 25 1 25 DNAJC9_AS1 214.43 478.87 * 26 1 26 RP11_452L6.8 212.73 477.45 * 27 1 27 BOLA3_AS1 212.39 478.78 * 28 1 28 RP4_794I6.4 211.21 478.41 * 29 1 29 AC005523.3 209.16 476.32 *
可见30个因素都比较显著, 可以选择这些比较显著的单因素,进行下游的多因素分析。
如果您对TCGA数据挖掘感兴趣,请学习我们的TCGA相关课程:
《GSEA富集分析》
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!