下载TCGA临床信息

采用TCGAbiolinks 去下载TCGA临床数据,并对数据进行整合

下载和处理TCGA的临床信息非常的麻烦,不同的癌症,格式还不一样,处理起来不容易。

采用TCGAbiolinks 包去下载和处理临床信息就非常的方便。

那么我们以下载胃癌病人的临床数据的为例,看看如何下载数据。

#  加载需要的包
library(SummarizedExperiment)
library(TCGAbiolinks)

###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################

# 设置程序参数
work_dir <- "/Users/zhangqiuxue/Documents/Train/TCGA/lab/Download_Data/Clinical" 

# 设置需要下载癌症对应的project 和数据类型
project <- "TCGA-STAD"
data_category <- "Clinical"
data_type <- "Clinical Supplement"
legacy <- FALSE

# 设置工作目录
setwd(work_dir)

# 下载临床数据的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project))

# 查询可以下载的数据
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type, 
                  legacy = legacy)

# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total Clinical sample to down:", length(samplesDown))

# 下载数据
GDCdownload(query = query,
            directory = DataDirectory,files.per.chunk=6, method='client')

# 用专门的函数去整合下载好的数据
clinical <- GDCprepare_clinic(query, clinical.info = "patient",directory = DataDirectory)

# 将数据保存到文件,方便后面的进一步分析
clinical_file <- paste0(DataDirectory, "_","clinical",".txt")
write.csv(clinical, file = clinical_file, row.names = F, quote = F)

TCGAbiolinks 是专门下载和分析TCGA的R包,功能强大,可以满足你下载,分析,挖掘TCGA数据的不少需求,值得学习和研究。


如果您对TCGA数据挖掘感兴趣,请学习我们的TCGA相关课程:

TCGA-生存分析

TCGA-基因差异表达分析

WGCNA加权基因共表达网络分析

GEO芯片数据挖掘

GSEA富集分析

  • 发表于 2018-06-01 11:57
  • 阅读 ( 5512 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 700 文章
  2. 安生水 348 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 75 文章
  8. CORNERSTONE 72 文章