下载TCGA临床信息中的用药信息

下载TCGA临床信息中的用药信息

前面我们介绍了TCGA临床信息的下载,但是由于临床信息字段比较多,不太好整理,所以TCGAbiolinks从中抽提了一些比较常用的字段,比如性别,年龄等。但是一些关于病人的用药信息,就没有放在临床信息里面。那如何下载这些临床信息呢? 我们以下载用药信息为例:

#  加载需要的包
library(SummarizedExperiment)
library(TCGAbiolinks)

###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################

# 设置程序参数
work_dir <- "/Users/zhangqiuxue/Downloads" 

# 设置需要下载癌症对应的project 和数据类型
project <- "TCGA-GBM"
data_category <- "Clinical"
data_type <- "Clinical Supplement"
legacy <- FALSE
file_type = "xml"

# 设置工作目录
setwd(work_dir)

# 下载临床数据的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project))

# 查询可以下载的数据
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type, 
                  file.type = file_type,
                  legacy = legacy)

# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total Clinical sample to down:", length(samplesDown))

# 下载数据
GDCdownload(query = query,
            directory = DataDirectory,files.per.chunk=6, method='client')

# 用专门的函数去整合下载好的数据
clinical <- GDCprepare_clinic(query, clinical.info = "drug",directory = DataDirectory)

# 将数据保存到文件,方便后面的进一步分析
clinical_file <- paste0(DataDirectory, "_","clinical",".txt")
write.csv(clinical, file = clinical_file, row.names = F, quote = F)

其中的关键就是设置:

file_type = "xml"

clinical.info = "drug"



如果您想学习TCGA数据挖掘,请学习的我TCGA系列课程:

TCGA-甲基化生存分析

TCGA-生存分析

TCGA-基因差异表达分析

TCGA-ceRNA调控网络分析

TCGA-转录因子调控

  • 发表于 2019-01-18 16:35
  • 阅读 ( 6252 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章