由美国科学家J.W.沃佩尔[注]等于1979年提出。“脆弱”一词最先出现于针对老年人的研究论文中,用来说明老年人针对某一特定的疾病有更高的患病率和死亡率。不同的生存分析模型对应不同的脆弱模型。对于一元生存分析脆弱模型而言,其假设个体的风险函数除了依赖协变量和基准函数
外(这也是比例风险模型所刻画的风险),还额外依赖一个不可观测的随机变量
:
式中为脆弱变量。当
时,个体的风险被放大;当
时,个体风险被减小。
脆弱模型中脆弱变量分布的选取是一个关键问题。已经有专门针对脆弱模型中脆弱变量分布族的研究。一般来说,常用的脆弱变量分布为伽马分布、对数正态分布等。
除了一元生存分析脆弱模型外,针对有明显关联的成组数据,如双胞胎的生存数据或者同一个人某种疾病的复发等数据。对这类明显具有相关性的多元生存分析也有对应的脆弱模型,称为多元生存分析脆弱模型。针对此类问题,通常对脆弱变量(针对问题的不同可能还有其他变量)取条件后再假设独立性进行处理。多元生存分析脆弱模型主要包括共同脆弱模型和相关脆弱模型。
以授精时间数据分析为例说明脆弱模型的应用。在奶牛场,产犊间隔(两次产犊之间的时间)最好在12~13个月。决定产犊间隔的一个主要因素是从分娩到第一次产犊的时间。该研究的目的是预测第一次授精的时间,以便根据预测采取合适的奶牛管理策略。在一个包含了14246头牛的数据的数据集中包含了涉及牛的多种指标,如每头牛的寿命、所属牛群、是否因为被屠宰而没有被授精所导致的删失指示变量、测量时间等。对于来自第个牛群的第
头牛,观察到
,删失时间
,删失指示变量
。根据共同脆弱模型:
式中为限制在第
个牛群上第
头牛的条件风险函数;
和
分别为待估系数和协变量;
为第
个牛群带来的随机效应;
的分布被设置成参数为
的伽马分布。给定
进一步假设事件时间服从韦布尔分布
,则生存函数为:
可采用极大偏似然方法估计参数,从而计算出只产犊一次的牛和多次产犊的牛的风险比为0.858(95%置信区间为[0.820,0.897]),于是得出结论:多次产犊的牛面临的风险更大。