当比较两个总体,其协变量或混杂因素有不同分布。例如,吸烟总体的年龄分布与不吸烟总体的年龄分布不同时,需要采用标准化方法,使用一个标准年龄分布,将两个总体的年龄分布统一为标准年龄分布。比较吸烟总体与不吸烟总体患病率时,如果这两个总体年龄的分布有差异,则不能简单比较这两个总体的患病率,需要先进行年龄分层后通过加权平均再进行比较。协变量是不受处理和暴露影响的变量。例如,年龄是一个协变量,它不受吸烟的影响。标准化方法常用于调整两个总体的协变量分布不同导致的不可比性。根据协变量(或向量)将总体进行分层得到关于协变量的子总体,在每一个
的子总体中,当比较暴露组和非暴露组的响应变量
的分布差异时,不会因为协变量
不同而产生相应变量
的分布差异。例如,在相同年龄
的人群中,吸烟总体和非吸烟总体患病率的差异不是年龄导致的。
采用标准化方法可以得到在协变量的分布为某一特定分布
的因果效应。例如,令所有人群的年龄分布作为标准分布
。令
表示吸烟组,
表示非吸烟组。变量
表示患肺癌。将某地区具有不同年龄分布的吸烟人群的患病率调整为标准分布
情况下的患病率:
(1) |
将非吸烟人群的患病率也调整为分布情况下的患病率:
(2) |
比较这两个标准化调整后的患病率。标准化采用分布,也可以用合并暴露组和非暴露组的
分布。如果这个分布代表了研究总体的
的分布
,那么标准化得到的度量就是研究总体的因果效应。如果吸烟子总体和非吸烟子总体根据年龄进行标准化调整,那么得到的患病率差异将不再是由年龄分布不同导致的。
如果的取值较多,分层分析方法和标准化方法可能会导致在协变量
的各水平上样本量很小,从而不能有效估计因果效应。因为:
标准化后可以写为:
(3) |
即变为使用进行逆概加权的方法。逆概加权分析可以采用逻辑斯蒂回归模型对
建模估计权重。