基本概念
在介绍Cox回归模型之前,先介绍几个有关的概念。
1.生存函数
具有变量
的观察对象的生存时间
大于某时刻
的概率,
称为生存函数。生存函数
又称为
累积生存率。
2. 死亡函数
具有变量
的观察对象的生存时间
不大于某时刻
的概率,
称为死亡函数。
死亡函数
的实际意义是当观察随访到
时刻的累积死亡率。
3. 死亡密度函数
具有变量X的观察对象在某时刻t的瞬时死亡率,称为死亡密度函数。
4. 危险率(风险)函数
具有变量X,且生存时间已达到
的观察对象在时刻
的瞬时死亡率,
危险率函数
实际上是一个条件瞬间死亡率
。
基本原理
生存分析的主要目的在于研究变量X与观察结果即生存函数(累积生存率)
之间的关系。
当
受很多因素影响,即
为向量时,传统的方法是考虑回归方程——即诸变量
对
的影响。但由于生存分析研究中的数据包含删失数据。且时间变量t通常不满足正态分布和方差齐性的要求,这就造成了用一般的回归方法研究上述关系的困难 。
Cox回归模型的基本形式
D.R.Cox提出了Cox比例风险回归模型,它不是直接考察
与X的关系,而是用
作为因变量,模型的基本形式为:
式中,
为自变量的偏回归系数,它是须从样本数据作出估计的参数;
是当X向量为0时,
的基准危险率,它是有待于从样本数据作出估计的量。
公式(1)简称为Cox回归模型。
由于Cox回归模型对
未作任何假定,因此Cox回归模型在处理问题时具有较大的灵活性;
另一方面,在许多情况下,我们只需估计出参数
(如因素分析等),即使在
未知的情况下,仍可估计出参数
。这就是说,Cox回归模型由于含有
,因此它不是完全的参数模型,但仍可根据公式(1)作出参数
的估计,故Cox回归模型属于
半参数模型。
公式(1)可以转化为:
Cox回归模型的假定
1. 比例风险假定 各危险因素的作用不随时间的变化而变化,即
不随时间的变化而变化。因此,公式(1)又称为
比例风险率模型(PH Model)。这一假定是建立Cox回归模型的前提条件。
2.对数线性假定 模型中的协变量应与对数风险比呈线性关系,如公式(2)。
Cox回归模型中偏回归系数的意义
若
是非暴露组观察对象的各因素取值,
是暴露组观察对象的各因素取值,由公式(3)就可以求出暴露组对非暴露组的相对危险度RR。
由公式(2)可见,模型中偏回归系数
的流行病学含义是在其他协变量不变的情况下,协变量
每增加一个测定单位时所引起的相对危险度的自然对数的改变量。即
式中,
分别表示在不同情况下的取值。当协变量
分别取1和0时,其对应的
为
从公式(1)和公式(4)可以看出有如下关系:
若
,则各
取值越大时,
的值越大,即
为危险因素。
若
,则各
的取值对
的值没有影响,即
为无关因素。
若
,则各
取值越大时,
的值越小,即
为保护因素。
假设检验
Cox回归模型中的偏回归系数可以通过建立偏似然函数,利用Newton-Raphson迭代法求得。其他自变量不变的情况下,变量
每增加一个单位,相对危险度
的
可信区间为:
式中
为
的标准误。
对于回归模型的假设检验通常采用似然比检验、Wald检验和记分检验,其检验统计量均服从
分布,其自由度为模型中待检验的自变量个数。一般说来,Cox回归系数的估计和模型的假设检验计算量较大,通常需利用计算机来完成相应的计算
如果您对TCGA数据挖掘感兴趣的话,请学习我的课程: