下载TCGA临床信息中的用药信息

前面我们介绍了TCGA临床信息的下载，但是由于临床信息字段比较多，不太好整理，所以TCGAbiolinks从中抽提了一些比较常用的字段，比如性别，年龄等。但是一些关于病人的用药信息，就没有放在临床信息里面。那如何下载这些临床信息呢？我们以下载用药信息为例：

#  加载需要的包
library(SummarizedExperiment)
library(TCGAbiolinks)

###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################

# 设置程序参数
work_dir <- "/Users/zhangqiuxue/Downloads" 

# 设置需要下载癌症对应的project 和数据类型
project <- "TCGA-GBM"
data_category <- "Clinical"
data_type <- "Clinical Supplement"
legacy <- FALSE
file_type = "xml"

# 设置工作目录
setwd(work_dir)

# 下载临床数据的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project))

# 查询可以下载的数据
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type, 
                  file.type = file_type,
                  legacy = legacy)

# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total Clinical sample to down:", length(samplesDown))

# 下载数据
GDCdownload(query = query,
            directory = DataDirectory,files.per.chunk=6, method='client')

# 用专门的函数去整合下载好的数据
clinical <- GDCprepare_clinic(query, clinical.info = "drug",directory = DataDirectory)

# 将数据保存到文件，方便后面的进一步分析
clinical_file <- paste0(DataDirectory, "_","clinical",".txt")
write.csv(clinical, file = clinical_file, row.names = F, quote = F)

其中的关键就是设置：

file_type = "xml"

clinical.info = "drug"

如果您想学习TCGA数据挖掘，请学习的我TCGA系列课程：

《TCGA-甲基化生存分析》

《TCGA-生存分析》

《TCGA-基因差异表达分析》

《TCGA-ceRNA调控网络分析》

《TCGA-转录因子调控》