前面我们介绍了TCGA临床信息的下载,但是由于临床信息字段比较多,不太好整理,所以TCGAbiolinks从中抽提了一些比较常用的字段,比如性别,年龄等。但是一些关于病人的用药信息,就没有放在临床信息里面。那如何下载这些临床信息呢? 我们以下载用药信息为例:
# 加载需要的包 library(SummarizedExperiment) library(TCGAbiolinks) ########################################################### # GDC: https://portal.gdc.cancer.gov/ ########################################################### # 设置程序参数 work_dir <- "/Users/zhangqiuxue/Downloads" # 设置需要下载癌症对应的project 和数据类型 project <- "TCGA-GBM" data_category <- "Clinical" data_type <- "Clinical Supplement" legacy <- FALSE file_type = "xml" # 设置工作目录 setwd(work_dir) # 下载临床数据的结果 DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project)) # 查询可以下载的数据 query <- GDCquery(project = project, data.category = data_category, data.type = data_type, file.type = file_type, legacy = legacy) # 该癌症总样品数量 samplesDown <- getResults(query,cols=c("cases")) cat("Total Clinical sample to down:", length(samplesDown)) # 下载数据 GDCdownload(query = query, directory = DataDirectory,files.per.chunk=6, method='client') # 用专门的函数去整合下载好的数据 clinical <- GDCprepare_clinic(query, clinical.info = "drug",directory = DataDirectory) # 将数据保存到文件,方便后面的进一步分析 clinical_file <- paste0(DataDirectory, "_","clinical",".txt") write.csv(clinical, file = clinical_file, row.names = F, quote = F)
其中的关键就是设置:
file_type = "xml"
clinical.info = "drug"
如果您想学习TCGA数据挖掘,请学习的我TCGA系列课程:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!