相关系数用一种量化的方式评价两个或者多个随机变量之间的关系。这里总结三种相关系数的计算方式。
用来衡量变量X和Y之间的线性关系。它的全称叫做Pearson product-moment correlation coefficient(好长~),简称PPMCC或者PCC。它的取值在1和-1之间。1表示完全正相关,0表示完全不相关,-1表示完全负相关,如下面在wikipedia上拔下来的图。
pearson相关系数使用时需要注意的一些情况:
is a statistic used to measure the ordinal association between two measured quantities.直接看公式比较容易理解:
![](http://www.forkosh.com/mathtex.cgi? \tau = \frac{nc - nd}{n(n-1)/2})
即有序对儿(nc)的数量减去无序对儿(nd)的数量除以总的对儿数。比如
x y
1 6
4 2
5 3
X和Y形成的对儿:
(1,6) (4,2) 无序
(1,6) (5,3) 无序
(4,2) (5,3) 有序
所以它们的Tau系数是(1-2)/3=-0.33
容易看出,如果两个序列之间排序对应一致的时候Tau系数为1,完全相反时为-1,无关是近似为0.
它用来评价一个单调函数能够多完美的描述两个变量之间的关系。变量X和Y的n个样本,对于每个Xi和Yi都被对应到它们的排名rgXi和rgYi,那么Spearman先关系数被定义为:
![](http://www.forkosh.com/mathtex.cgi? r_s = \frac{cov(rg_x, rg_y)}{\sigma_{rg}x\sigma{rg}_y})
其实这个就是Xi与Yi对应的排序值的pearson相关系数。当Xi和Yi对应的排序值无重复的时候可以等价于下面的(注意,只有排序值无重复时才能这样算):
![](http://www.forkosh.com/mathtex.cgi? r_s = 1-\frac{6\sum d_i2}{n(n2-1)})
di = rgXi-rgYi,也就是两个排序值之间的差。(其实,有很多方式让排序值不重复的,排序值不一定是整数)
当Spearman系数为正的时候,表示X的值升Y的值也升;当Spearman系数为负的时候,表示X的值升Y的值降;当Spearman系数为0的时候,表示X的升降和Y的升降没有关系。当Spearman系数为1的时候表示X和Y呈现完美的单调升关系,即Xi-Xj和Yi-Yj永远是相同的正负号。当Spearman系数为-1的时候表示X和Y呈现完美的单调降关系,即Xi-Xj和Yi-Yj永远是相反的正负号。
Spearman被描述为非参数的,这有两层含义:1)只要X和Y呈现任意的单调关系,Spearman相关系数就会达到1或者-1,而与此对应的,Pearson相关系数只有在X和Y呈现线性关系时才会达到完美值。2)对X和Y的联合分布不做假设。
Spearson系数的一个分级:
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!