典型相关性分析CCA与冗余分析RDA

1.典型相关(CCA)的基本原理canonical correspondence analysis  典型相关分析是研究两组变量之间关系的一种多变量统计分析方法,它可以反映两组变量之间的相互依赖的线性关系。设两组变量用x1...
1.典型相关(CCA)的基本原理canonical correspondence analysis
  典型相关分析是研究两组变量之间关系的一种多变量统计分析方法,它可以反映两组变量之间的相互依赖的线性关系。设两组变量用x1x2…xp,及y1y2….yq表示,采用类似主成分分析的做法,在每一组变量中选择若干个具有代表性的综合指标(变量的线性组合),通过研究两组的综合指标间的关系来反映两组变量之间的相关关系。基本原理是:首先在每组变量中找出变量的线性组合,使其具有最大相关性,如此继续下去,直到两组变量之间的相关性被提取完毕。
       在单变量复相关中,有px变量和一个y变量,分析的目的在于找出适当的回归系数作为这Px变量的加权值,使px变量线性组合分数与这一个y变量分数之间的相关最大。在典型相关分析中也有px变量,但是y变量却有q个(q>1)。典型相关的目的在于找出这px变量的加权值和这qy变量的加权值,使这px变量线性组合分数与这qy变量线性组合分数相关程度达到最大————王斌会著《多元统计分析与R语言建模》attachments-2023-05-EzR9nDD6645a12be4bc18.png
2.冗余分析(RDA)redundancy analysis
        RDA是一种结合回归和主成分分析(PCA)的方法。它是多元回归分析的直接扩展,用于多变量响应数据建模。 RDA是生态学家手中极其强大的工具。
            先用species-sample数据(97%相似性的样品OTU表)做DCA(detrended correspondence analysis) 分析,看分析结果中Lengths of gradient 的第一轴的大小。如果大于4.0,就应该选CCA;如果3.0-4.0 之间,选RDA 和CCA均可;如果小于3.0,RDA 的结果要好于CCA。
目前CCA要比RDA用得更普遍,有两个原因:
  1. 大部分情况下,两者的分析结果并差别并不大。其实,CCA非线性模型其实可以容纳线性模型,线性关系可以算是非线性模型的特例。所有用RDA可以做的,CCA也可以做,只不过在如果梯度比较短的话RDA要精确一点。但是,如果是非线性关系,用线性的RDA来分析,那个准确度就大大打折扣了。因为,本来点就不在同一条直线上,现在非得用直线去拟合,肯定不合适。这也是为什么SD小于3也可以用CCA,但是SD大于4,就不能用RDA的原因。
  1. 正因为大家都用CCA,用得多了,文献多了,大家为了方便比较,所有更多的选择是CCA,RDA自然就越来越少了。
4.解读CCA图:
attachments-2023-05-7TmNEpLT645a13b8eaf07.png

上图的CCA分析结果图,图中箭头代表不同的环境因子,红色的代表不同的微生物,绿色的代表不同的样本(当然这个图可以只展示样本和和环境因子2种)。

环境因子的箭头的长度代表相应的环境因子与研究对象(样品,微生物)相关程度的大小,越长代表其对所研究对象(样品,微生物)的分布影响越大。箭头连线之间的夹角的代表其相关性,为锐角是说明2个环境因子之间是正相关,钝角是负相关。


内容引用:https://mp.weixin.qq.com/s?src=11&timestamp=1683621881&ver=4517&signature=WdvKvbRJ*LCNVVX95fqaAwQTOSDZDVjgMa-7bZ-6bm0H*rGYUNRE8cf5WJ5MYNn1Zl0FJPzka9mDQAvyjI6yx0TLUB-yNHBxF6*TKLxY4-Dl5w87XHB801Bphq3*hP5k&new=1


  • 发表于 2023-05-09 17:37
  • 阅读 ( 7493 )
  • 分类:基础知识

0 条评论

请先 登录 后评论
rzx
rzx

76 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章