下载TCGA数据的方式有很多,大致可以分成3类:
1. 采用GDC 工具去下载: 这个其实挺麻烦的,下载后的数据还要合并,不同的数据合并方式还不一样,需要些不少的代码。
2. 从Broad 研究所的Firehose 去下载整理好的数据,但是这个数据都比较陈旧。
3. 采用R包去下载: 目前一些R包,能对GDC的工具和API进行了很好的封装,简化了操作过程,而且当GDC进行了升级时,R包也会及时更新,所以这种方式下载数据是一个比较理想的方式。
# 加载需要的包 library(SummarizedExperiment) library(TCGAbiolinks) ########################################################### # GDC: https://portal.gdc.cancer.gov/ ########################################################### # 设置环境参数 work_dir <- "/Users/zhangqiuxue/Lab/TCGA/TCGAbiolinks" # 设置程序参数 project <- "TCGA-STAD" data_category <- "Transcriptome Profiling" data_type <- "Gene Expression Quantification" workflow_type <- "HTSeq - Counts" legacy <- FALSE # 设置工作目录 setwd(work_dir) # 下载基因表达量,count数格式的结果 DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",projects)) FileNameData <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".rda") # 查询可以下载的数据 query <- GDCquery(project = project, data.category = data_category, data.type = data_type, workflow.type = workflow_type, legacy = legacy) # 该癌症总样品数量 samplesDown <- getResults(query,cols=c("cases")) cat("Total sample to down:", length(samplesDown)) # TP 样品数量 dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = "TP") cat("Total TP samples to down:", length(dataSmTP)) # NT 样本数量 dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "NT") cat("Total NT samples to down:", length(dataSmNT)) # 下载数据, 数据比较大,耐心等待 GDCdownload(query = query, directory = DataDirectory) # 保存结果,方便后面使用 data <- GDCprepare(query = query, save = TRUE, directory = DataDirectory, save.filename = FileNameData) # 表达量提取,保存到文件 data_expr <- assay(data) dim(data_expr) gene_expr_file <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".txt") write.table(data_expr, file = gene_expr_file, sep="\t", row.names =T, quote = F)
除了下载数据,TCGAbiolinks 还集成了差异分析,生存分析等功能,有兴趣的朋友可以去尝试一下。
如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!