ICGC数据库(https://daco.icgc.org/),即国际癌症基因组联盟(International Cancer Genome Consortium),数据库中收集了50种不同癌症类型或不同亚型的肿瘤数据,其中包括基因表达数据,体细胞突变数据(单核苷酸突变和拷贝数变异),以及相关的临床数据等。并且其中同样囊括了TCGA数据库和TARGET数据库中的相关数据。因此,我们往往把TCGA数据库分析得到的模型或者结论,使用ICGC数据库中的数据进行外部验证拓展。
我们要想下载这个数据库中的数据,首先要进入数据储存地址Welcome | ICGC Data Portal。
然后点击DCC Data Releases,查看数据更新版本信息。
点击跳转页面后,我们可以看到不同时间更新的数据版本信息,一般选择最新版本的数据来进行分析。点击current,就可查看最新版本的数据。
点击Projects就可进入数据集储存界面。
在该页面可以看到其中包含的各个项目内容,根据研究的疾病类型和相关具体需求来进行选择。
比如我们选择一个来自美国的透明细胞肾癌数据集,点击后可以看到这个数据集中包括的数据。
在该数据集中,包括基因表达exp_seq.KIRC-US.tsv.gz,临床数据specimen.KIRC-US.tsv.gz,Somatic突变数据simple_somatic_mutation.open.KIRC-US.tsv.gz,以及一些其他的相关病史等等。
通常下载基因表达文件和临床数据文件用于后续的分析使用。
除了上述方法外,我们还可以直接搜索关键词,比如癌症全称等,并指定数据类型,也可以快速地搜索到我们想要的数据。
选择好后点击进入,就可以看到数据相关的信息。
点击右下角的Open in DCC Data Releases,就也可以下载数据了。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!