基本概念
在介绍Cox回归模型之前,先介绍几个有关的概念。
1.生存函数
具有变量
的观察对象的生存时间

大于某时刻

的概率,
称为生存函数。生存函数

又称为
累积生存率。
2. 死亡函数
具有变量

的观察对象的生存时间

不大于某时刻

的概率,
称为死亡函数。
死亡函数

的实际意义是当观察随访到

时刻的累积死亡率。
3. 死亡密度函数
具有变量X的观察对象在某时刻t的瞬时死亡率,称为死亡密度函数。
4. 危险率(风险)函数
具有变量X,且生存时间已达到

的观察对象在时刻

的瞬时死亡率,
危险率函数
实际上是一个条件瞬间死亡率
。
基本原理
生存分析的主要目的在于研究变量X与观察结果即生存函数(累积生存率)

之间的关系。
当

受很多因素影响,即
为向量时,传统的方法是考虑回归方程——即诸变量

对

的影响。但由于生存分析研究中的数据包含删失数据。且时间变量t通常不满足正态分布和方差齐性的要求,这就造成了用一般的回归方法研究上述关系的困难 。
Cox回归模型的基本形式
D.R.Cox提出了Cox比例风险回归模型,它不是直接考察

与X的关系,而是用

作为因变量,模型的基本形式为:
式中,

为自变量的偏回归系数,它是须从样本数据作出估计的参数;

是当X向量为0时,

的基准危险率,它是有待于从样本数据作出估计的量。
公式(1)简称为Cox回归模型。
由于Cox回归模型对

未作任何假定,因此Cox回归模型在处理问题时具有较大的灵活性;
另一方面,在许多情况下,我们只需估计出参数

(如因素分析等),即使在

未知的情况下,仍可估计出参数

。这就是说,Cox回归模型由于含有

,因此它不是完全的参数模型,但仍可根据公式(1)作出参数

的估计,故Cox回归模型属于
半参数模型。
公式(1)可以转化为:
Cox回归模型的假定
1. 比例风险假定 各危险因素的作用不随时间的变化而变化,即
不随时间的变化而变化。因此,公式(1)又称为
比例风险率模型(PH Model)。这一假定是建立Cox回归模型的前提条件。
2.对数线性假定 模型中的协变量应与对数风险比呈线性关系,如公式(2)。
Cox回归模型中偏回归系数的意义
若

是非暴露组观察对象的各因素取值,

是暴露组观察对象的各因素取值,由公式(3)就可以求出暴露组对非暴露组的相对危险度RR。
由公式(2)可见,模型中偏回归系数

的流行病学含义是在其他协变量不变的情况下,协变量
每增加一个测定单位时所引起的相对危险度的自然对数的改变量。即
式中,

分别表示在不同情况下的取值。当协变量

分别取1和0时,其对应的

为

从公式(1)和公式(4)可以看出有如下关系:
若

,则各

取值越大时,

的值越大,即

为危险因素。
若

,则各

的取值对

的值没有影响,即

为无关因素。
若

,则各

取值越大时,

的值越小,即

为保护因素。
假设检验
Cox回归模型中的偏回归系数可以通过建立偏似然函数,利用Newton-Raphson迭代法求得。其他自变量不变的情况下,变量

每增加一个单位,相对危险度

的

可信区间为:

式中

为

的标准误。
对于回归模型的假设检验通常采用似然比检验、Wald检验和记分检验,其检验统计量均服从
分布,其自由度为模型中待检验的自变量个数。一般说来,Cox回归系数的估计和模型的假设检验计算量较大,通常需利用计算机来完成相应的计算
如果您对TCGA数据挖掘感兴趣的话,请学习我的课程: