下载TCGA基因表达量文件,应该选Count,FPKM还是FPKM-UQ ?

下载TCGA基因表达量文件,应该选Count,FPKM还是FPKM-UQ ?

GDC中转录组的表达量文件有3种类型,分别对应着不同的定量方法。

attachments-2018-06-8TK5bp6b5b23673713408.png

Counts 就不用说了,来看看FPKM和FPKM-UQ有啥差别,这个可以查看GDC的官方说明文档中的转录组分析部分,两者的计算公式:

attachments-2019-10-oHK7wjS55da7f9a9d5338.png

    RCg: 比对到基因上的reads数量

    RCpc: 比对到所有编码蛋白基因上的reads数量

    RCg75: 样品中75%分位对应的基因reads数目

     L: 基因的长度,为外显子长度之和

以一个计算实例来说明两者的差别:

假设在样品1中Gene A 的相关统计信息如下:

    1. Gene A的长度为:3000 

    2. 比对到Gene A上的reads数量:1000

    3. 比对所有基因上的reads数据量:1,000,000

    4. 样品1中覆盖75%基因的reads数:2000 

那么,FPKM和FPKM-UQ的计算结果如下:

    FPKM  = (1,000)*(10^9)/[(3,000)*(1,000,000)] = 333.33

    FPKM-UQ  = (1,000)*(10^9)/[(3,000)*(2,000)] = 166,666.67


那么我们一般下载那种数据比较好呢? 
如果是做差异分析的话,我建议采用counts ,毕竟有不少的差异分析的软件都是基于counts数。

如果是计算样品间的相关性,聚类等,那就可以采用均一化的FPKM,和FPKM-UQ。当然下载counts,之后进行标准化,也是可以的。

所以,一般下载counts会比较好一些。


如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。

TCGA-基因差异表达分析

TCGA-生存分析

TCGA-转录因子调控

TCGA-ceRNA调控网络分析

  • 发表于 2018-06-15 14:55
  • 阅读 ( 13885 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章