拷贝数变异(Copy Number Variation,CNV)是指基因组中某些DNA片段的拷贝数相对于参考基因组的变化。CNV可以表现为基因组中某些区域的扩增(增加拷贝数)或缺失(减少拷贝数)。这些变异可能覆盖几千到几百万个碱基对。而肿瘤恶性细胞通常伴随着拷贝数变异,通过影响相关基因的表达促进肿瘤发生。在肿瘤单细胞数据分析过程中,肿瘤细胞类型的注释可通过tumor related marker gene的表达情况(是否高表达)做出判断。而inferCNV可以从拷贝数变异的角度进一步验证肿瘤细胞类型的注释。
InferCNV分析原理介绍
inferCNV的算法是在完成肿瘤微环境的细胞类型注释的基础之上,以“Normal”细胞的基因表达情况做对照(已知正常的细胞类型,免疫细胞、内皮细胞..等),计算“tumor”-annotated (可能为肿瘤细胞的细胞类型肿瘤细胞、上皮细胞、成纤维细胞…)细胞中的某些染色体区域的基因表达是否发生明显的增多或减少,从而推测出细胞的拷贝数变异图谱(并可以进一步聚类),从而验证之前的注释结果。
inferCNV从计算步骤来说分为以下分析步骤:
按染色体平滑(Smoothing by chromosome): 原始基因表达达数据通过染色体范围内的平滑处理,减少噪音。
按细胞中心化(Centering by cel1) : 将每个细胞的基因表达数据中心化,校正细胞间技术偏差。
从肿瘤细胞中减去正常细胞数据(Subtracting normalfrom Tumor Cells) : 减去正常细胞的表达数据,提取肿瘤特异性CNV信号
去噪处理(De-noising) : 进一步去噪处理,消除随机噪音
CNV预测(CNV prediction) : 基于处理后的数据,预测出肿瘤细胞中的CNV
单细胞拷贝数结果:
可分为3部分:上半部分热图、下半部分热图以及左上角的图例
首先关于左上角的图例:(0,0.5,1,1.5,2)分别表示相对于Normal细胞的染色体区域基因表达量的倍数,红色表示该区域基因拷贝数相对增多,蓝色表示该区域基因拷贝数相对减少。柱子的长度表示对应区域的多少;
上半部分的热图:表示指定为Normal细胞的CNV分布情况,正常情况下应该都是白色,没有明显集中的CNV区域;
下半部分的热图:相对于上半部分的Normal cell,计算的得到的每个tumor-like细胞的CNV图谱;然后根据所有细胞的相似性进行树状图聚类。
对应的CNV 拷贝数重要文件:
infercnv.references.txt 参考细胞拷贝数结果 热图上半部分
infercnv.observations.txt 肿瘤细胞拷贝数结果 热图下半部分
run.final.infercnv_obj 最终的结果文件,infercnv对象包含所有数据
单细胞转录组分析视频课程:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!