下载和处理TCGA的临床信息非常的麻烦,不同的癌症,格式还不一样,处理起来不容易。
采用TCGAbiolinks 包去下载和处理临床信息就非常的方便。
那么我们以下载胃癌病人的临床数据的为例,看看如何下载数据。
# 加载需要的包 library(SummarizedExperiment) library(TCGAbiolinks) ########################################################### # GDC: https://portal.gdc.cancer.gov/ ########################################################### # 设置程序参数 work_dir <- "/Users/zhangqiuxue/Documents/Train/TCGA/lab/Download_Data/Clinical" # 设置需要下载癌症对应的project 和数据类型 project <- "TCGA-STAD" data_category <- "Clinical" data_type <- "Clinical Supplement" legacy <- FALSE # 设置工作目录 setwd(work_dir) # 下载临床数据的结果 DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project)) # 查询可以下载的数据 query <- GDCquery(project = project, data.category = data_category, data.type = data_type, legacy = legacy) # 该癌症总样品数量 samplesDown <- getResults(query,cols=c("cases")) cat("Total Clinical sample to down:", length(samplesDown)) # 下载数据 GDCdownload(query = query, directory = DataDirectory,files.per.chunk=6, method='client') # 用专门的函数去整合下载好的数据 clinical <- GDCprepare_clinic(query, clinical.info = "patient",directory = DataDirectory) # 将数据保存到文件,方便后面的进一步分析 clinical_file <- paste0(DataDirectory, "_","clinical",".txt") write.csv(clinical, file = clinical_file, row.names = F, quote = F)
TCGAbiolinks 是专门下载和分析TCGA的R包,功能强大,可以满足你下载,分析,挖掘TCGA数据的不少需求,值得学习和研究。
如果您对TCGA数据挖掘感兴趣,请学习我们的TCGA相关课程:
《GSEA富集分析》
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!