TCGA数据下载

TCGAbiolinks 下载 TCGA 数据

下载TCGA数据的方式有很多，大致可以分成3类：

1. 采用GDC 工具去下载：这个其实挺麻烦的，下载后的数据还要合并，不同的数据合并方式还不一样，需要些不少的代码。

2. 从Broad 研究所的Firehose 去下载整理好的数据，但是这个数据都比较陈旧。

3. 采用R包去下载：目前一些R包，能对GDC的工具和API进行了很好的封装，简化了操作过程，而且当GDC进行了升级时，R包也会及时更新，所以这种方式下载数据是一个比较理想的方式。

#  加载需要的包

library(SummarizedExperiment)
library(TCGAbiolinks)

###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################

# 设置环境参数
work_dir <- "/Users/zhangqiuxue/Lab/TCGA/TCGAbiolinks" 

# 设置程序参数
project <- "TCGA-STAD"
data_category <- "Transcriptome Profiling"
data_type <- "Gene Expression Quantification"
workflow_type <- "HTSeq - Counts"
legacy <- FALSE


# 设置工作目录
setwd(work_dir)

# 下载基因表达量，count数格式的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",projects))
FileNameData <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".rda")

# 查询可以下载的数据
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type, 
                  workflow.type = workflow_type,
                  legacy = legacy)

# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total sample to down:", length(samplesDown))

# TP 样品数量
dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = "TP")
cat("Total TP samples to down:", length(dataSmTP))

# NT 样本数量
dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "NT")
cat("Total NT samples to down:", length(dataSmNT))


# 下载数据, 数据比较大，耐心等待
GDCdownload(query = query,
            directory = DataDirectory)

# 保存结果，方便后面使用
data <- GDCprepare(query = query, 
                       save = TRUE, 
                       directory =  DataDirectory,
                       save.filename = FileNameData)

# 表达量提取，保存到文件
data_expr <- assay(data)
dim(data_expr)
gene_expr_file <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".txt")
write.table(data_expr, file = gene_expr_file, sep="\t", row.names =T, quote = F)

除了下载数据，TCGAbiolinks 还集成了差异分析，生存分析等功能，有兴趣的朋友可以去尝试一下。

如果你对TCGA数据挖掘有兴趣的话，可以学习我们的TCGA相关课程。

《TCGA-基因差异表达分析》

《TCGA-生存分析》

《TCGA-转录因子调控》

《TCGA-ceRNA调控网络分析》

发表于 2018-05-25 10:30
阅读 ( 5786 )
分类：TCGA

TCGA数据下载

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »