rbsurv对生存分析的单因素进行鲁棒性检验

rbsurv对生存分析的单因素进行鲁棒性检验

单因素生存分析过后,依然会有非常多显著的单因素,那么进行多因素分析之前,如何选择单因素呢?

这就要采用一些降维的方法,选择单因素中比较重要的一些单因素进行下游分析。方法有很多了,其中采用R包rbsurv进行分析比较多见。

具体操作如下:

# 先看看操作的数据框的结构

> head(exprSet)[0:6, 0:6]
  bcr_patient_barcode time status    NEAT1    MIR205HG LRRC75A_AS1
1        TCGA-2W-A8YY  148      0 37464.39    19.90881    24651.08
2        TCGA-4J-AA1J  226      0 81280.86 30453.54242    12288.18
3        TCGA-BI-A0VR 1505      0 57859.60 23164.53371    22721.61
4        TCGA-BI-A0VS  925      0 39732.40 34618.98183    13592.70
5        TCGA-BI-A20A   72      0 78514.49 29501.88646    14386.92
6        TCGA-C5-A0TN  348      1 47486.18 23953.34249    20335.92

############################################################
# 单因素中显著的基因,进一步鲁棒性筛选(此时选择全部的样本比较好)

sign_gene_expr <-t(exprSet[sign_gene_id])
dim(sign_gene_expr)

# 将矩阵的值转换成numeric
rust_test<-matrix(as.numeric(unlist(sign_gene_expr)),nrow=nrow(sign_gene_expr))
row.names(rust_test) <- row.names(sign_gene_expr)
time <- exprSet$time
status <- exprSet$status
fit <-rbsurv(time=time, status=status, x=rust_test, method="efron", max.n.genes=30, n.iter = 10,n.fold = 3,gene.ID =row.names(rust_test))

# 鲁棒性分析结果 
> fit$model
    Seq Order           Gene nloglik    AIC Selected
0     1     0              0  269.17 538.35         
110   1     1     AC092614.2  261.86 525.71 *       
2     1     2  RP11_415F23.3  256.66 517.32 *       
3     1     3  RP11_395A13.2  254.47 514.95 *       
4     1     4    RP4_728D4.2  252.83 513.66 *       
5     1     5        DBH_AS1  252.04 514.07 *       
6     1     6  RP11_731C17.2  247.11 506.22 *       
7     1     7   RP11_621L6.3  243.34 500.68 *       
8     1     8  RP11_415F23.4  243.21 502.41 *       
9     1     9 RP11_147L13.15  243.00 504.00 *       
10    1    10  RP11_753H16.5  240.87 501.75 *       
11    1    11   RP11_80H18.4  239.85 501.70 *       
12    1    12    AF064858.10  238.96 501.93 *       
13    1    13  RP11_261C10.5  238.50 503.00 *       
14    1    14  RP11_960L18.1  237.01 502.01 *       
15    1    15     AC093110.3  237.00 503.99 *       
16    1    16 RP11_1096G20.5  235.03 502.05 *       
17    1    17     STARD4_AS1  230.52 495.04 *       
18    1    18  RP11_166D19.1  229.46 494.91 *       
19    1    19    RP11_12M5.4  226.71 491.41 *       
20    1    20     AC005592.2  225.17 490.35 *       
21    1    21   RP11_33N14.5  220.06 482.12 *       
22    1    22  RP11_713N11.6  219.32 482.64 *       
23    1    23   RP11_823E8.3  219.26 484.51 *       
24    1    24  RP3_508I15.21  217.63 483.25 *       
25    1    25     DNAJC9_AS1  214.43 478.87 *       
26    1    26   RP11_452L6.8  212.73 477.45 *       
27    1    27      BOLA3_AS1  212.39 478.78 *       
28    1    28    RP4_794I6.4  211.21 478.41 *       
29    1    29     AC005523.3  209.16 476.32 *       

可见30个因素都比较显著, 可以选择这些比较显著的单因素,进行下游的多因素分析。


如果您对TCGA数据挖掘感兴趣,请学习我们的TCGA相关课程:

TCGA-基因差异表达分析

TCGA-生存分析

WGCNA加权基因共表达网络分析

GEO芯片数据挖掘

GSEA富集分析



  • 发表于 2018-06-15 11:25
  • 阅读 ( 5685 )
  • 分类:TCGA

2 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章