比较而言,标准的回归模型假设解释变量的观测值不含误差。当解释变量中存在测量误差时,基于标准回归模型的参数估计不具有相合性,也就是说,当样本容量趋于无穷大时,参数估计值不会依概率收敛于真实值。例如,在一元线性回归模型中,回归系数是被低估的,这被称为衰减偏误(attenuation bias)。
一般情况下,测量误差模型是通过引入潜变量(latent variables)建立的。假设是因变量,潜变量
是真实但不可观测的自变量,
是自变量
带误差的观测值。一般测量误差模型为:
式中为模型的未知参数,
为不存在观测误差的自变量(如在包含截距项的线性模型中,截距项对应的解释变量是一个常数,即不含测量误差)。在上述模型中,
是可以被观测到的,即可以得到
个样本值
,
,而
和
是不可观测的。潜变量
和其测量误差
之间的关系根据实际情况的不同有不同的假设。例如,经典也是最常见的假设是
,即测量误差与潜变量相互独立,这种误差通常是由于测量工具造成的;或假设
,即测量误差在给定潜变量的条件均值为零,此假设弱于上述假设且允许测量误差具有异方差性;或假设
,即测量误差与能观测到的自变量相互独立,此误差称为伯克森(Berkson)误差。
下面给出两个测量误差模型的例子。
①线性测量误差模型。
当上述模型是一元线性模型时,如果用一般最小二乘方法得到的估计如下:
随着样本量趋近于无穷,那么
式中和
分别为潜变量
和其测量误差
的方差。因为
,所以最小二乘估计
不是相合的,且具有衰减偏差。假设潜变量
独立于测量误差
,一元线性测量误差模型在两种情况下是可识别的:①
不服从正态分布。②
服从正态分布,但
和
不服从正态分布。
当模型②是多元线性测量误差模型时,和
都是
的向量。多元线性测量误差模型的可识别条件还是一个开放问题。已有研究表明,当
是相互独立,且服从正态分布时,当且仅当不存在非奇异的
矩阵
(
是一个
的向量)满足
服从独立于
的正态分布时,参数
是可识别的。
常用的估计线性测量误差模型的方法有矩估计方法(method of moments)、工具变量法(instrumental variables approach)等估计方法。
②非线性测量误差模型。
式中为参数或非参数函数,当
为参数形式时,可以记为
。多元非参数测量误差模型的一般性识别条件还有待讨论。但是,有一些估计方法,如工具变量法(instrumental variables approach)重复观测值方法(repeated observations approach),通过利用其他数据信息,可以得到特定假设条件下非线性测量误差模型的估计结果。