TCGA数据库介绍

TCGA数据库介绍

1.TCGA数据库介绍

是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目(Cancer Genome Atlas,TCGA),通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。TCGA 使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力TCGA 目标:完成一套完整的与所有癌症基因组改变相关的“图谱”。官方网站: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

目前共收录了33种癌症类型,超过了2.5个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。


attachments-2021-04-VcasGRQ6608779f041464.png

数据库中各种项目中英文对照:

简称

全称

中文

备注

BRCA

breast invasive carcinoma

乳腺浸润癌


PAAD

pancreatic adenocarcinoma

胰腺癌


COAD

colon adenocarcinoma

大肠腺癌


ESCA

esophageal adenocarcinoma

食管腺癌


BLCA

bladder urothelial carcinoma

膀胱尿路上皮癌


STAD

stomach adenocarcinoma

胃腺癌


CHOL

cholangiocarcinoma

胆管癌


CESC

cervical squamous cell carcinoma and  endocervical adenocarcinoma

宫颈鳞癌与宫颈腺癌


LUAD

lung adenocarcinoma

肺腺癌


LIHC

liver hepatocellular carcinoma

肝细胞癌


ACC

adrenocortical carcinoma

肾上腺皮质癌

只有01样本

KICH

kidney chromophobe

肾嫌色细胞癌


READ

rectum adenocarcinoma

直肠腺癌


PRAD

prostate adenocarcinoma

前列腺癌


LUSC

lung squamous cell carcinoma

肺鳞癌


GBM

glioblastoma multiforme

多形性胶质母细胞瘤

miRNA数据中只有正常样本

HNSC

head and neck squamous cell carcinoma

头颈部鳞状细胞癌


KIRP

kidney renal papillary cell carcinoma

肾乳头状细胞癌


THCA

thymoma carcinoma

胸腺瘤癌


DLBC

lymphoid neoplasm diffuse large B-cell  lymphoma

淋巴肿瘤弥漫性大B细胞淋巴瘤


LGG

brain lower grade glioma

脑低级别胶质瘤


OV

ovarian serous cystadenocarcinoma

卵巢浆液性囊腺癌


UCEC

uterine corpus endometrial carcinoma

子宫体子宫内膜癌


SKCM

skin cutaneous melanoma

皮肤黑色素瘤


KIRC

kidney renal clear cell carcinoma

肾透明细胞癌


THYM

thymoma

胸腺瘤

正常样本只有两个

PCPG

pheochromocytoma and paraganglioma

嗜铬细胞瘤和副神经节瘤

正常样本只有三个

SARC

sarcoma

肉瘤

miRNA数据中没有正常样本

LAML

acute myeloid leukemia

急性髓性白血病

没有正常样本

TGCT

testicular germ cell tumors

睾丸生殖细胞瘤

没有正常样本

MESO

mesothelioma

间皮瘤

没有正常样本

UVM

uveal melanoma

葡萄膜黑色素瘤

没有正常样本

UCS

uterine carcinosarcoma

子宫癌肉瘤

没有正常样本



2.数据介绍

TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,lncRNA表达, miRNA表达,甲基化数据等。数据类型包括以下几种

  1. RNA sequencing
  2. MicroRNA sequencing
  3. DNA sequencing
  4. SNP-based platforms
  5. Array-based DNA methylation sequencing
  6. Reverse-phase array(RPPA)

另外还包括: Clinical 病人临床信息:包括病人的一般情况、诊治情况、肿瘤分期、病理、生存情况等,Imaging:包括诊断、组织以及放射影像

这些数据可分为三个级别:

  • level-1: 原始的测序数据(fasta,fastq等)
  • level-2:比对好的bam文件
  • level-3:为经过处理及标准化的数据

(其中level1和level2为controlled-access,level1和level2 是原始数据,文件较大且数据粗糙不利于进一步分析,level-3有部分是controlled-access,数据类型为controlled-access的数据需要向TCGA申请使用权限,数据类型为open-access的可以直接下载利用)
若要下载需要使用官方提供的小工具:

更多关于数据的介绍:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables 


 3.数据下载

1)官方下载方式

TCGA官网的data-portal: portal.gdc.cancer.gov  提供gdc-tools工具下载,优点:数据最全,更新最快 缺点:下载速度慢,下载的数据为单个文件需要自己写代码整合,不利于进一步分析。
attachments-2021-04-yM5aievJ608777d8bbf9f.png


2)第三方工具

  1. cBioPortal :  https://www.cbioportal.org/ 内部的数据是根据TCGA发表的paper分类   

  2. FireBrowse :gdac.broadinstitute.org  优点:这里的数据经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中,下载方式最简单且可以直接下一步分析 缺点:临床随访数据几乎没有更新。

  3. UCSC  Xena  :  https://xena.ucsc.edu/   已经给你把TCGA数据分类好了,直接点相应的癌症类型,相应数据下载 https://xenabrowser.net/datapages/

3)R语言工具下载

R包包括 RTCGAT,RTCGAToolbox,TCGAbiolinks  、TCGA2STAT、GDCRNATOOLS等。但是我最常用的是TCGAbiolinks包,因为该包更新比较快,同时也是直接下载官网数据保证准确性,同时该包下载数据可直接整理成表格并可在R语言中分析,利于进一步分析和挖掘。 详细使用说明见:https://www.omicsclass.com/article/1060 



  • 发表于 2021-04-27 10:33
  • 阅读 ( 12215 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章