由美国经济学家J.托宾[注]于1958年提出,用于描绘一个非负的因变量与一个自变量的关系。该术语由美国经济学家A.戈德伯格[注]于1958年在处理家庭耐用品支出的零膨胀数据问题时首次使用。托宾回归模型可以轻松扩展为研究截断样本和其他非随机选择样本的模型。
托宾回归模型假设存在一个潜在的、未被观察到的变量。这个变量线性地取决于自变量
,且其对应的线性回归模型的系数为
,误差项
服从正态分布。当这个潜在变量大于0时,定义这个因变量
的值等于这个潜在变量的值,否则令其为0,即
式中。
关于的估计,如果直接把观测到的
回归到
上得到,那么其所对应的最小二乘估计不是一个相合估计。它会导致斜率的估计是向下有偏的,而截距的估计是向上有偏的。经济学家雨宫健于1973年证明托宾提出来的极大似然估计是这个模型的相合估计。
托宾回归模型分为五种模型类别,而以上描述的模型为第一类托宾回归模型的一种特殊情况。
①第一类托宾回归模型。其表达式为:
其所对应的似然函数为:
式中;
为标准正态分布的累积分布函数;
为标准正态分布的概率密度函数;
是样本数。
②第二类托宾回归模型。引入第二个潜在变量,其表达式为:
③第三类,引入第二个观测到的变量,其表达式为:
④第四类,引入第三个观测到的变量以及第三个潜在变量
,其表达式为:
⑤第五类,与第二类相似,但的正负号是观测到的,其表达式为:
托宾回归模型与截断回归模型是完全不同的,其估计值也不同,因此不应被混淆。具体来说,截断发生在当因变量和自变量的某些观测值均缺失时。例如,当研究收入的影响因素时,若样本中仅包括低收入人群,那么就应该使用截断回归模型。实际上,当样本数据是从较大总体的某个子集中抽取时,可能发生数据截断现象。而当因变量的数据缺失(或有限制)但自变量的数据不丢失时,会发生数据删失现象。例如,所有收入水平的人都可能包括在样本中,但由于某种原因,高收入人群的收入最高只显示为100万元。如果没有数据删失,那么数据将是感兴趣人群的代表性样本。数据删失也可能由客观技术原因造成。例如,假设一个研究项目正在研究家庭饮用水中的铅含量与房屋年龄和家庭收入的函数关系。然而,水检测套件无法检测低于十亿分之五(ppb)的铅浓度,这将造成数据左删失。