ssGSEA.r 单样本基因集富集分析

ssGSEA.r 单样本基因集富集分析

使用方法:


$Rscript ../scripts/ssGSEA.r -h
usage: ../scripts/ssGSEA.r [-h] -i expset -g geneset [-o outdir] [-p prefix]
ssGSEA免疫侵润分析
optional arguments:
  -h, --help            show this help message and exit
  -i expset, --expset expset
                        input gene expression set matrix from RNA-seq data csv
                        format [required]
  -g geneset, --geneset geneset
                        input gene set database [required]
  -o outdir, --outdir outdir
                        output file directory [default cwd]
  -p prefix, --prefix prefix
                        output file name prefix [default demo]


参数说明:

-i 基因表达量  , 建议用TPM标准化之后的数据:


IDTCGA-D7-A74A-01A-11R-A32D-31TCGA-BR-7704-01A-11R-2055-13TCGA-VQ-A91N-01A-11R-A414-31TCGA-CD-A4MH-01A-11R-A251-31
NUP5018.6550531.5923228.2338228.76485
CXCR464.85805125.12356.3524469.98976
NT5E111.481869.858779.3738225.05824
EFNA38.24785742.0330843.4643226.66024
STC14.78111121.3632740.8107719.51568
ZBTB7A95.51678103.4768158.3024126.2677
CLDN91.1874562.4761380.3660817.347344


-g 基因集  两列数据,第一列细胞类型,第二列为基因

CellType Symbol
B cells MS4A1
B cells TCL1A
B cells MS4A1
B cells TCL1A
B cells HLA-DOB
B cells PNOC
B cells KIAA0125
B cells CD19
B cells CR2
B cells IGHG1
B cells FCRL2
B cells BLK
B cells IGHG1
B cells COCH
B cells OSBPL10
B cells IGHA1
B cells TNFRSF17
B cells ABCB4
B cells BLNK


结果说明:

得到每一个样本的不同基因集中的NES值: 

NES值:用最大值与最小值间的绝对差对ssGSEA分数进行标准化。

cell_type TCGA-B7-A5TK-01A-12R-A36D-31 TCGA-BR-7959-01A-11R-2343-13 TCGA-IN-8462-01A-11R-2343-13 TCGA-BR-A4CR-01A-11R-A24K-31
aDC 0.612130511 0.452721422 0.434065 0.352635
B cells 0.423322775 0.408870064 0.426612 0.413857
Blood vessels 0.68102349 0.775438572 0.689433 0.577667
CD8 T cells 0.675615385 0.650073242 0.629121 0.566048
Cytotoxic cells 0.621056151 0.425217442 0.411617 0.3128
DC 0.619838925 0.485055579 0.489101 0.266905
Eosinophils 0.502784949 0.514938557 0.469541 0.488051
iDC 0.531619756 0.49843721 0.530931 0.390699
Lymph vessels 0.710842769 0.721323072 0.658391 0.500574


方法说明:

单样本基因集富集分析(single sample gene set enrichment analysis, ssGSEA),是GSEA方法的扩展,主要是针对单个样本无法做GSEA而设计。文章2009年发表于nature,题目为Systematic RNA interference reveals that oncogenic KRAS-driven cancers require TBK1。

首先对给定样本的基因表达值进行秩次标准化,然后利用经验累积分布函数计算富集分数(ES)。设给定基因集为G,包含基因数为NG,给定单个样本为S,表达谱包含基因数为N,N个基因按它们绝对表达值从高到低确定秩次。i 从1赋值到N,依此计算PGw和PNG

R语言GSVA包可实现ssGSEA分析,GSVA包发布在Bioconductor上:

Hänzelmann S, Castelo R, Guinney J (2013). “GSVA: gene set variation analysis for microarray and RNA-Seq data.” BMC Bioinformatics14, 7. doi: 10.1186/1471-2105-14-7http://www.biomedcentral.com/1471-2105/14/7.








  • 发表于 2021-06-15 17:15
  • 阅读 ( 4836 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章