定义:
主成分分析PCA(Principalcomponent analysis)是一种研究数据相似性或差异性的可视化方法,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,把复杂的数据用一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,来表示样品之间的关系。通过PCA 可以观察个体或群体间的差异。PC后面的百分数表示对应特征向量对数据的解释量,此值越大越好;
PCoA(Principal Co-ordinates Analysis)分析即主坐标分析。它与PCA类似,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。
如何取舍:
在微生物分析中我们会基于beta多样性分析得到的距离矩阵,进行PCA和PCoA分析,具体距离矩阵可见:beta多样性矩阵。PCA是基于样本的相似矩阵(如欧式距离)来寻找主成分,而PCoA是基于相异距离矩阵(欧式距离以外的其他距离,包括binary_jaccard ,bray_curtis ,unweighted_unifrac和weighted_unifrac距离)来寻找主坐标。
在分析的过程中PCA和PCoA分析都会用到降维的思想,但是在降维的过程中必然会造成数据损失,多数情况下,我们在做降维处理的时候,期望维数越低越好,这样我们就可以最大程度地保真原始数据。PCA基于物种丰度矩阵就意味着PCA分析的矩阵维度等于物种数目。同样的道理,PCoA基于样本间的距离矩阵就意味着PCoA分析的矩阵维度与样本数目相关。因此,如果样本数目比较多,而物种数目比较少,那肯定首选PCA;如果样本数目比较少,而物种数目比较多,那肯定首选PCoA。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!