在研究许多实际问题时,常涉及一个变量和另外多个变量
之间的关系,它们虽然有一定的关系,但由于随机误差等干扰,还没有达到可以通过
来唯一的确定
的程度。为了简单起见,可以把问题设想成通过
来预报
,相应的称
是因变量,而称
为自变量。所谓通过
来预报
,就是要找一个数学方法以描述它们的关系。由于它们的关系不是完全确定的,这就要求在已知
值的条件下,
取值的不确定性可以通过一定的概率分布来描述。换句话说,要求
是一个随机变量,在给定
的值为
时,
有条件分布
。这样就能够利用变量
的观测值,用统计的方法研究
和
的相互关系。虽然从概率论的观点来看,概率分布是随机变量统计性质的最全面的刻画,但是,利用
的观测值来估计条件分布
有相当的难度,有时候估计这个条件分布的某些数字特征既简单可行,又能满足实际问题的需要。比如,这个条件分布的均值就是一个最重要的数字特征。
表示这个条件分布的均值,则有:
。
再记,便有:
。
这个就刻画了因变量
和自变量
相互关系的不确定性,称为随机误差。称上式为回归方程(regression equation),称
为回归函数(regression function)。利用
的观测值对回归方程进行统计分析称为回归分析。
对于前面提到的预报问题,如果已知回归函数,则在给定
的值为
时,可以用
去预报
,而且在均方误差最小的意义下,这个预报是最优的。回归模型的分类可根据
的形式来分类,也可根据数据类型来分类。如根据
的形式来分类,则回归模型通常分为三大类:参数回归模型、非参数回归模型和半参数回归模型。
如果回归函数的形式已知,统计分析的任务仅是估计其中的未知参数,即研究如下的问题:
则称为参数回归(parametric regression),称为回归系数(regression coefficient)。如果回归函数
关于
和
是线性的,则称为 线性回归;如果回归函数
关于
是非线性的,则称为 非线性回归;式中
均为已知函数。如果回归函数
的形式未知,则称为 非参数回归(nonparametric regression)。如果回归函数
中有一部分形式已知(依赖于参数),而另有一部分形式未知,则称 半参数回归(semiparametric regression)。此外,还有部分线性回归模型;(部分)变系数线性回归模型;单(多)指标回归模型;可加回归模型,变量带测量误差(error-in-variables)回归模型,等等。回归分析的一个主要任务是利用
的观测值来估计回归函数。下面主要介绍线性回归模型(linear regression model)。
线性回归模型是现代统计学应用最为广泛的统计模型之一。它是用来描述现实世界中某一个变量和其他变量
的某种统计依赖关系的。换句话说,
与变量
具有某种统计依赖关系,即
可以由变量
部分地线性确定,但不能完全确定,带有随机误差。通常称
为因变量,有时也称为内生变量,
称为自变量,有时也称为外生变量。如果因变量
和自变量
的统计依赖关系可以用如下线性关系来表述:
则称模型为线性回归模型,式中称为 模型的回归参数(regression parameter),也常称为 回归系数(regression coefficient),它们是待定的未知参数,
为随机误差。这里的线性主要是指回归模型关于参数
是线性关系,这是本质的。而关于自变量
的线性关系则是非本质的,这是因为对自变量分别作相应的已知非线性变换,则不改变线性回归模型的实质。
为了建立线性回归模型,通常利用对变量的实际观测数据来估计模型中的未知参数
。假定以获得
的
个观测数据
,则它们满足如下关系:
式中为第
次观测对应的随机误差。记:
,
。
式中称为设计阵,则
个观测值所对应的方程有如下的矩阵表示:
。
为了获得未知参数的估计,通常是利用最小二乘估计(least squares estimate),即寻找
使得偏差向量
的长度平方
达到最小。在线性回归模型中,通常假设设计矩阵
是列满秩的,从而
是可逆的。于是,对
关于
求导数,并令其为零,可得所要求的未知参数的最小二乘估计(以下简记为LS估计):
。
相应地,可得随机误差方差的LS估计为:
。
称:
为残差平方和。它反映了实际数据与假定的线性回归模型的偏离程度,或者说反映了数据与模型的拟合程度。RSS越小,模型拟合越好。
为了刻画参数估计的统计性质,通常要对随机误差做适当的假设。比如,假设随机误差满足:
。
则上述最小二乘估计具有如下性质:①无偏性:。②
。③设
为任一
常数向量,在
的所有的线性无偏估计类中,LS估计
是唯一方差最小的无偏估计,即
为
的最佳线性无偏估计。④如果进一步假设
服从正态分布,均值为零,方差为
,则:
且对任意向量
,
与
相互独立。此时,最小二乘估计也是最大似然估计。
在实际中,线性回归模型可以用来描述变量之间的关系,也可以用来预测。