针对有不少学员问起《TCGA-生存分析》课程中的Risk Score 到底是如何计算的。现进行简单的介绍:
cox生存分析模型
Cox比例风险回归模型,是用

作为因变量,模型的基本形式为:
式中,

为自变量的偏回归系数,它是须从样本数据作出估计的参数;

是当X向量为0时,

的基准危险率,它是有待于从样本数据作出估计的量。
由于

未知, 该公式是无法进行分析的,比较建立在一定的假设上面,所有Cox 模型提出了几个假设:
1. 比例风险假定
各危险因素的作用不随时间的变化而变化,即

不随时间的变化而变化。因此,公式(1)又称为
比例风险率模型(PH Model)。这一假定是建立Cox回归模型的前提条件。
2.对数线性假定
模型中的协变量应与对数风险比呈线性关系。
所以公式1 可以转换成:
很多同学在文献中都看到了 Risk Score 是采用:
这种形式,那就有几个问题了:
1. 我们课程中提供的预测值到底是什么呢?
我们课程中提供的预测值是:

。
2. 两者之间有什么关系呢?
由于

是一个恒量, 那么通过公式1 会发现

和Risk score 是指数线性关系。