展开全部 +
首页 . 理学 . 数学 . 数理统计学 . 回归分析

回归分析

/regression analysis/
条目作者崔恒建

崔恒建

最后更新 2024-12-13
浏览 477
最后更新 2024-12-13
浏览 477
0 意见反馈 条目引用

利用有关变量的观测值对回归方程进行统计分析的方法。数理统计学的一个分支。

英文名称
regression analysis
所属学科
数学

在研究许多实际问题时,常涉及一个变量和另外多个变量之间的关系,它们虽然有一定的关系,但由于随机误差等干扰,还没有达到可以通过来唯一的确定的程度。为了简单起见,可以把问题设想成通过来预报,相应的称是因变量,而称为自变量。所谓通过来预报,就是要找一个数学方法以描述它们的关系。由于它们的关系不是完全确定的,这就要求在已知值的条件下,取值的不确定性可以通过一定的概率分布来描述。换句话说,要求是一个随机变量,在给定的值为时,有条件分布。这样就能够利用变量的观测值,用统计的方法研究的相互关系。虽然从概率论的观点来看,概率分布是随机变量统计性质的最全面的刻画,但是,利用的观测值来估计条件分布有相当的难度,有时候估计这个条件分布的某些数字特征既简单可行,又能满足实际问题的需要。比如,这个条件分布的均值就是一个最重要的数字特征。表示这个条件分布的均值,则有:


再记,便有:


这个就刻画了因变量和自变量相互关系的不确定性,称为随机误差。称上式为回归方程(regression equation),称为回归函数(regression function)。利用的观测值对回归方程进行统计分析称为回归分析。

对于前面提到的预报问题,如果已知回归函数,则在给定的值为时,可以用去预报而且在均方误差最小的意义下,这个预报是最优的。回归模型的分类可根据的形式来分类,也可根据数据类型来分类。如根据的形式来分类,则回归模型通常分为三大类:参数回归模型、非参数回归模型和半参数回归模型。

如果回归函数的形式已知,统计分析的任务仅是估计其中的未知参数,即研究如下的问题:


则称为参数回归(parametric regression),称为回归系数(regression coefficient)。如果回归函数关于是线性的,则称为 线性回归;如果回归函数关于是非线性的,则称为 非线性回归;式中均为已知函数。如果回归函数的形式未知,则称为 非参数回归(nonparametric regression)。如果回归函数中有一部分形式已知(依赖于参数),而另有一部分形式未知,则称 半参数回归(semiparametric regression)。此外,还有部分线性回归模型;(部分)变系数线性回归模型;单(多)指标回归模型;可加回归模型,变量带测量误差(error-in-variables)回归模型,等等。回归分析的一个主要任务是利用的观测值来估计回归函数。下面主要介绍线性回归模型(linear regression model)。

线性回归模型是现代统计学应用最为广泛的统计模型之一。它是用来描述现实世界中某一个变量和其他变量的某种统计依赖关系的。换句话说,与变量具有某种统计依赖关系,可以由变量部分地线性确定,但不能完全确定,带有随机误差。通常称为因变量,有时也称为内生变量,称为自变量,有时也称为外生变量。如果因变量和自变量的统计依赖关系可以用如下线性关系来表述:


则称模型为线性回归模型,式中称为 模型的回归参数(regression parameter),也常称为 回归系数(regression coefficient),它们是待定的未知参数,为随机误差。这里的线性主要是指回归模型关于参数是线性关系,这是本质的。而关于自变量的线性关系则是非本质的,这是因为对自变量分别作相应的已知非线性变换,则不改变线性回归模型的实质。

为了建立线性回归模型,通常利用对变量的实际观测数据来估计模型中的未知参数。假定以获得个观测数据,则它们满足如下关系:


式中为第次观测对应的随机误差。记:

 

式中称为设计阵,则个观测值所对应的方程有如下的矩阵表示:


为了获得未知参数的估计,通常是利用最小二乘估计(least squares estimate),即寻找使得偏差向量的长度平方达到最小。在线性回归模型中,通常假设设计矩阵是列满秩的,从而是可逆的。于是,对关于求导数,并令其为零,可得所要求的未知参数的最小二乘估计(以下简记为LS估计):


相应地,可得随机误差方差的LS估计为:


称:


为残差平方和。它反映了实际数据与假定的线性回归模型的偏离程度,或者说反映了数据与模型的拟合程度。RSS越小,模型拟合越好。

为了刻画参数估计的统计性质,通常要对随机误差做适当的假设。比如,假设随机误差满足:


则上述最小二乘估计具有如下性质:①无偏性:。②。③设为任一常数向量,在的所有的线性无偏估计类中,LS估计是唯一方差最小的无偏估计,的最佳线性无偏估计。④如果进一步假设服从正态分布,均值为零,方差为,则:


且对任意向量相互独立。此时,最小二乘估计也是最大似然估计。

在实际中,线性回归模型可以用来描述变量之间的关系,也可以用来预测。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!