单细胞转录组-infer CNV拷贝数变异分析介绍

单细胞转录组-infer CNV拷贝数变异分析介绍

拷贝数变异(Copy Number Variation,CNV)是指基因组中某些DNA片段的拷贝数相对于参考基因组的变化。CNV可以表现为基因组中某些区域的扩增(增加拷贝数)或缺失(减少拷贝数)。这些变异可能覆盖几千到几百万个碱基对。而肿瘤恶性细胞通常伴随着拷贝数变异,通过影响相关基因的表达促进肿瘤发生。在肿瘤单细胞数据分析过程中,肿瘤细胞类型的注释可通过tumor related marker gene的表达情况(是否高表达)做出判断。而inferCNV可以从拷贝数变异的角度进一步验证肿瘤细胞类型的注释。



attachments-2024-08-A75upeGj66cc488290b92.png


InferCNV分析原理介绍

inferCNV的算法是在完成肿瘤微环境的细胞类型注释的基础之上,以“Normal”细胞的基因表达情况做对照(已知正常的细胞类型,免疫细胞、内皮细胞..等),计算“tumor”-annotated (可能为肿瘤细胞的细胞类型肿瘤细胞、上皮细胞、成纤维细胞…)细胞中的某些染色体区域的基因表达是否发生明显的增多或减少,从而推测出细胞的拷贝数变异图谱(并可以进一步聚类),从而验证之前的注释结果。

inferCNV从计算步骤来说分为以下分析步骤:

  1. 按染色体平滑(Smoothing by chromosome): 原始基因表达达数据通过染色体范围内的平滑处理,减少噪音。

  2. 按细胞中心化(Centering by cel1) : 将每个细胞的基因表达数据中心化,校正细胞间技术偏差。

  3. 从肿瘤细胞中减去正常细胞数据(Subtracting normalfrom Tumor Cells) : 减去正常细胞的表达数据,提取肿瘤特异性CNV信号

  4. 去噪处理(De-noising) : 进一步去噪处理,消除随机噪音

  5. CNV预测(CNV prediction) : 基于处理后的数据,预测出肿瘤细胞中的CNV

attachments-2024-08-vKE2QpQD66cc489f660de.png


单细胞拷贝数结果:

可分为3部分:上半部分热图、下半部分热图以及左上角的图例

首先关于左上角的图例:(0,0.5,1,1.5,2)分别表示相对于Normal细胞的染色体区域基因表达量的倍数,红色表示该区域基因拷贝数相对增多,蓝色表示该区域基因拷贝数相对减少。柱子的长度表示对应区域的多少;

上半部分的热图:表示指定为Normal细胞的CNV分布情况,正常情况下应该都是白色,没有明显集中的CNV区域;

下半部分的热图:相对于上半部分的Normal cell,计算的得到的每个tumor-like细胞的CNV图谱;然后根据所有细胞的相似性进行树状图聚类。

attachments-2024-08-tEyyiVQA66cc48b699455.png

对应的CNV 拷贝数重要文件:

infercnv.references.txt 参考细胞拷贝数结果 热图上半部分
infercnv.observations.txt  肿瘤细胞拷贝数结果 热图下半部分
run.final.infercnv_obj 最终的结果文件,infercnv对象包含所有数据


单细胞转录组分析视频课程:


attachments-2024-08-6vbFVana66cc48d0dfe07.png

  • 发表于 2024-08-26 17:20
  • 阅读 ( 858 )
  • 分类:转录组

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章