是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目(Cancer Genome Atlas,TCGA),通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。TCGA 使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力TCGA 目标:完成一套完整的与所有癌症基因组改变相关的“图谱”。官方网站: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
目前共收录了33种癌症类型,超过了2.5个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。
数据库中各种项目中英文对照:
简称 | 全称 | 中文 | 备注 |
BRCA | breast invasive carcinoma | 乳腺浸润癌 | |
PAAD | pancreatic adenocarcinoma | 胰腺癌 | |
COAD | colon adenocarcinoma | 大肠腺癌 | |
ESCA | esophageal adenocarcinoma | 食管腺癌 | |
BLCA | bladder urothelial carcinoma | 膀胱尿路上皮癌 | |
STAD | stomach adenocarcinoma | 胃腺癌 | |
CHOL | cholangiocarcinoma | 胆管癌 | |
CESC | cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞癌与宫颈腺癌 | |
LUAD | lung adenocarcinoma | 肺腺癌 | |
LIHC | liver hepatocellular carcinoma | 肝细胞癌 | |
ACC | adrenocortical carcinoma | 肾上腺皮质癌 | 只有01样本 |
KICH | kidney chromophobe | 肾嫌色细胞癌 | |
READ | rectum adenocarcinoma | 直肠腺癌 | |
PRAD | prostate adenocarcinoma | 前列腺癌 | |
LUSC | lung squamous cell carcinoma | 肺鳞癌 | |
GBM | glioblastoma multiforme | 多形性胶质母细胞瘤 | miRNA数据中只有正常样本 |
HNSC | head and neck squamous cell carcinoma | 头颈部鳞状细胞癌 | |
KIRP | kidney renal papillary cell carcinoma | 肾乳头状细胞癌 | |
THCA | thymoma carcinoma | 胸腺瘤癌 | |
DLBC | lymphoid neoplasm diffuse large B-cell lymphoma | 淋巴肿瘤弥漫性大B细胞淋巴瘤 | |
LGG | brain lower grade glioma | 脑低级别胶质瘤 | |
OV | ovarian serous cystadenocarcinoma | 卵巢浆液性囊腺癌 | |
UCEC | uterine corpus endometrial carcinoma | 子宫体子宫内膜癌 | |
SKCM | skin cutaneous melanoma | 皮肤黑色素瘤 | |
KIRC | kidney renal clear cell carcinoma | 肾透明细胞癌 | |
THYM | thymoma | 胸腺瘤 | 正常样本只有两个 |
PCPG | pheochromocytoma and paraganglioma | 嗜铬细胞瘤和副神经节瘤 | 正常样本只有三个 |
SARC | sarcoma | 肉瘤 | miRNA数据中没有正常样本 |
LAML | acute myeloid leukemia | 急性髓性白血病 | 没有正常样本 |
TGCT | testicular germ cell tumors | 睾丸生殖细胞瘤 | 没有正常样本 |
MESO | mesothelioma | 间皮瘤 | 没有正常样本 |
UVM | uveal melanoma | 葡萄膜黑色素瘤 | 没有正常样本 |
UCS | uterine carcinosarcoma | 子宫癌肉瘤 | 没有正常样本 |
TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,lncRNA表达, miRNA表达,甲基化数据等。数据类型包括以下几种
另外还包括: Clinical 病人临床信息:包括病人的一般情况、诊治情况、肿瘤分期、病理、生存情况等,Imaging:包括诊断、组织以及放射影像
这些数据可分为三个级别:
(其中level1和level2为controlled-access,level1和level2 是原始数据,文件较大且数据粗糙不利于进一步分析,level-3有部分是controlled-access,数据类型为controlled-access的数据需要向TCGA申请使用权限,数据类型为open-access的可以直接下载利用)
若要下载需要使用官方提供的小工具:
更多关于数据的介绍:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables
cBioPortal : https://www.cbioportal.org/ 内部的数据是根据TCGA发表的paper分类
FireBrowse :gdac.broadinstitute.org 优点:这里的数据经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中,下载方式最简单且可以直接下一步分析 缺点:临床随访数据几乎没有更新。
UCSC Xena : https://xena.ucsc.edu/ 已经给你把TCGA数据分类好了,直接点相应的癌症类型,相应数据下载 https://xenabrowser.net/datapages/
R包包括 RTCGAT,RTCGAToolbox,TCGAbiolinks 、TCGA2STAT、GDCRNATOOLS等。但是我最常用的是TCGAbiolinks包,因为该包更新比较快,同时也是直接下载官网数据保证准确性,同时该包下载数据可直接整理成表格并可在R语言中分析,利于进一步分析和挖掘。 详细使用说明见:https://www.omicsclass.com/article/1060
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!