在不同书籍或文献中,由于因变量类型或研究目等的不同,多水平模型常被冠以不同的名称,如等级线性模型(hierarchical linear model; HLM)、混合效应模型(mixed-effect model)、随机效应模型(random-effect models)、多水平线性模型(multilevel linear models)、协方差成分模型(covariance components models)等。多水平线性模型为多水平模型最基本形式,广义的多水平模型包括多水平Logistic回归模型、多水平Possion回归模型等。
多水平模型
用于处理多水平数据(multilevel data)的一类复杂模型的总称。
- 英文名称
- multilevel statistical models
- 所属学科
- 现代医学
在对自然和社会现象研究过程中,所遇到的层次化或嵌套结构的数据并不少见。在医学和公共卫生研究中,经常会收集到具有多水平结构的数据,如某省调查农村居民卫生服务情况,随机从该省抽取30个乡镇,每个乡镇抽取2个行政村,每个村再随机抽取一定数量的家庭,对每个家庭15岁以上的常住人口均进行问卷调查。本例中每个个体成员都属于某个家庭,每个家庭又属于某个村,每个村又属于某个乡镇,层层嵌套。这里我们就可以将个体作为一个水平,其处于最低水平,定义为水平1,家庭是比个体高一级的水平,定义为水平2,以此类推,村定义为水平3,乡镇定义为水平4。数字越大表示处于越高水平。
对在校学生成绩评估研究中,收集了多所学校特定班级所有学生的考试成绩和相关资料。收集到的变量可以分为一定的层次,第一层为学生本身的变量,比如年龄、学习成绩等等;第二层为班级的变量,比如班级的人数、男女生的比例、班主任的管理风格等等;第三层是学校的变量,比如重点或者非重点、学校所在地等,这样的数据具有层次嵌套结构。
另外在生物医学、社会科学、计量经济学等众多领域普遍存在的纵向数据(longitudinal data)或重复测量数据也呈现出多水平结构,其特点是对同一组受试个体在不同时间点上重复观测的数据。考虑含有n个个体的样本,对第i个个体在时间点处对响应变量
和协变量
进行观测,其中
表示对第i个个体总的观测次数。在这类纵向数据分析中,研究的兴趣通常集中在评价时间t和协变量X对响应变量Y的效应,其中协变量可以依赖于时间,也可以不依赖于时间t。虽然纵向数据组间是独立的,但在同一个体内的不同观测往往具有相关性。如某癫痛病发作的研究中,59个癫痫病患者参与了实验。实验开始将全部患者随机分为两组采取两种不同的疗法,其中28个患者服安慰剂,31个患者服抗痛药物。每隔两周对这些病人进行连续4次访问,记录癫痛病发作的人数,在该项研究中,响应变量为两周期间癫痫病发作数量,协变量为年龄和基准癫痫病史。研究问题是研究药物是否有助于降低癫痛病发作的次数。该研究为平衡纵向数据实验,每个个体在固定的时间点进行观测,观测的次数相同。相对应的为非平衡纵向数据,即每个个体的观测数目不等且观测是在完全任意的时间点进行。如国际艾滋病研究中心(MACS)为研究艾滋患者CD4细胞数减少的平均时间趋势,自1984年开始,记录了大约5000人的CD4细胞数的数据,该研究要求参加者每隔半年接受一次CD4细胞数检查,但对检测次数和时间没有严格的限制。上述的两个例子中,个体之间可以合理地假定为相互独立,但每个个体内的多次重复观测很可能是相关的。每种研究都可以归结为回归问题,用来描述响应变量对协变量的依赖关系。纵向数据对同一个个体进行重复观测的特点是它可以直接研究个体随时间的变化趋势。
与传统线性模型基本假设线性、正态、方差齐性和独立相比,多水平嵌套数据一般很难满足方差齐性和样本独立的要求。用多水平线性模型处理具有层次结构的数据,若模型的假设能够得到满足,则结果更为准确、可靠。
多水平和嵌套分析的思想由来已久,但在20世纪90年代才发展为系统完整的理论和方法。多水平线性模型这一术语最早是由林德利(Lindley)和史密斯(Smith)于1972年提出,但是由于该模型参数估计的方法较传统的回归方法不同,所以在很长一段时间,它的应用受到了计算技术的限制。1977年,登普斯特(Dempster)等人提出了EM(Expectation Maximization)算法,1981年将EM算法应用于解决多水平线性模型的参数估计,使得这一方法的应用成为可能。1983年,斯特雷尼奥(Strenio)等相继将这一方法应用于社会学的研究。随后,1986年戈德斯坦(Goldstein)应用迭代加权广义最小二乘法(Iteratively Reweighted Generalized Least Squares)估计参数,1987年,朗福德(Longford)应用费歇得分算法(Fisher Scoring Algorithm)对模型参数进行了估计。随着参数估计问题的解决和算法的程序化,相继出现了一些相应的软件,目前较常用的有HLM(1988)、Mlwin(1989)和VARCL(1988)。
一般来说可以将多水平模型理解为回归模型(线性或广义线性模型),但其参数(即回归系数)是非固定的,而是符合某种概率分布的随机变量。以两水平模型为例,第二水平模型是对第一水平模型中参数(模型的超参)进行建模,并通过样本数据对其进行估计。多水平模型有两个重要组成部分:变化的参数和变化参数所对应的预测模型(可包含层的预测因子)。