rbsurv对生存分析的单因素进行鲁棒性检验

单因素生存分析过后，依然会有非常多显著的单因素，那么进行多因素分析之前，如何选择单因素呢？

这就要采用一些降维的方法，选择单因素中比较重要的一些单因素进行下游分析。方法有很多了，其中采用R包rbsurv进行分析比较多见。

具体操作如下：

# 先看看操作的数据框的结构

> head(exprSet)[0:6, 0:6]
  bcr_patient_barcode time status    NEAT1    MIR205HG LRRC75A_AS1
1        TCGA-2W-A8YY  148      0 37464.39    19.90881    24651.08
2        TCGA-4J-AA1J  226      0 81280.86 30453.54242    12288.18
3        TCGA-BI-A0VR 1505      0 57859.60 23164.53371    22721.61
4        TCGA-BI-A0VS  925      0 39732.40 34618.98183    13592.70
5        TCGA-BI-A20A   72      0 78514.49 29501.88646    14386.92
6        TCGA-C5-A0TN  348      1 47486.18 23953.34249    20335.92

############################################################
# 单因素中显著的基因，进一步鲁棒性筛选(此时选择全部的样本比较好)

sign_gene_expr <-t(exprSet[sign_gene_id])
dim(sign_gene_expr)

# 将矩阵的值转换成numeric
rust_test<-matrix(as.numeric(unlist(sign_gene_expr)),nrow=nrow(sign_gene_expr))
row.names(rust_test) <- row.names(sign_gene_expr)
time <- exprSet$time
status <- exprSet$status
fit <-rbsurv(time=time, status=status, x=rust_test, method="efron", max.n.genes=30, n.iter = 10,n.fold = 3,gene.ID =row.names(rust_test))

# 鲁棒性分析结果 
> fit$model
    Seq Order           Gene nloglik    AIC Selected
0     1     0              0  269.17 538.35         
110   1     1     AC092614.2  261.86 525.71 *       
2     1     2  RP11_415F23.3  256.66 517.32 *       
3     1     3  RP11_395A13.2  254.47 514.95 *       
4     1     4    RP4_728D4.2  252.83 513.66 *       
5     1     5        DBH_AS1  252.04 514.07 *       
6     1     6  RP11_731C17.2  247.11 506.22 *       
7     1     7   RP11_621L6.3  243.34 500.68 *       
8     1     8  RP11_415F23.4  243.21 502.41 *       
9     1     9 RP11_147L13.15  243.00 504.00 *       
10    1    10  RP11_753H16.5  240.87 501.75 *       
11    1    11   RP11_80H18.4  239.85 501.70 *       
12    1    12    AF064858.10  238.96 501.93 *       
13    1    13  RP11_261C10.5  238.50 503.00 *       
14    1    14  RP11_960L18.1  237.01 502.01 *       
15    1    15     AC093110.3  237.00 503.99 *       
16    1    16 RP11_1096G20.5  235.03 502.05 *       
17    1    17     STARD4_AS1  230.52 495.04 *       
18    1    18  RP11_166D19.1  229.46 494.91 *       
19    1    19    RP11_12M5.4  226.71 491.41 *       
20    1    20     AC005592.2  225.17 490.35 *       
21    1    21   RP11_33N14.5  220.06 482.12 *       
22    1    22  RP11_713N11.6  219.32 482.64 *       
23    1    23   RP11_823E8.3  219.26 484.51 *       
24    1    24  RP3_508I15.21  217.63 483.25 *       
25    1    25     DNAJC9_AS1  214.43 478.87 *       
26    1    26   RP11_452L6.8  212.73 477.45 *       
27    1    27      BOLA3_AS1  212.39 478.78 *       
28    1    28    RP4_794I6.4  211.21 478.41 *       
29    1    29     AC005523.3  209.16 476.32 *

可见30个因素都比较显著, 可以选择这些比较显著的单因素，进行下游的多因素分析。

如果您对TCGA数据挖掘感兴趣，请学习我们的TCGA相关课程：

《TCGA-基因差异表达分析》

《TCGA-生存分析》

《WGCNA加权基因共表达网络分析》

《GEO芯片数据挖掘》

《GSEA富集分析》

发表于 2018-06-15 11:25
阅读 ( 6048 )
分类：TCGA

rbsurv对生存分析的单因素进行鲁棒性检验

你可能感兴趣的文章

相关问题

2 条评论

作家榜 »