超几何分布是统计学中的一种离散分布,它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数。 也是生物信息学中常用的一种统计分布模型。我们在GO,KEGG的富集分析时就采用的是这个模型。 其数学表达式如下:
其中:
N: 总样本数
m: 总样本中“特定类别”的数量
n: 从总样本中随机抽取的数量
k: 抽取样本中属于“特定类别”的数量
但是我们做统计模型时,统计不是分布概率,而是累积概率,所以计算的p_value 值计算公式为:
对应的R代码实现为:
1-phyper(k-1,m, N-m, n,)
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!