线性回归分析法中的线性是指参数和扰动项进入模型的方式,并非指变量之间的关系。线性回归可以得到因变量关于自变量的条件期望,因而可以根据自变量的值,对因变量的值进行预测。
线性回归分析
研究一个变量(被解释变量或因变量)与其他一些变量(解释变量或自变量)之间相关关系的方法。
- 英文名称
- linear regression analysis method
- 所属学科
- 系统科学
线性回归分析法的最初概念为最小二乘法,最早出现于法国数学家A.-M.勒让德1805年的著作《计算彗星轨道的新方法》。德国数学家C.F.高斯1809年在其著作《关于绕日行星运动》中也提出了上述思想,同时引入了正态误差理论,提高了最小二乘法在实用上的方便性和广泛性。19世纪时,最小二乘法已经在法国、英国等国家得到广泛推广。19世纪后期,英国学者F.高尔顿在遗传现象中发现了相关回归,正式提出了回归这一术语。随后,英国统计学家K.皮尔逊和G.U.尤尔给出了相关统计概念的数学表达,并且假定自变量与因变量的联合分布为高斯分布。R.A.费舍尔在1922年至1925年的一系列文章中,将该假定放宽为因变量的条件分布为高斯分布。在线性统计模型的框架下,回归分析的相关理论得到迅速发展。20世纪初A.A.马尔可夫推广了高斯的相关理论,提出了高斯-马尔可夫定理。50年代,出现了用线性规划求解最小二乘的方法。A.E.霍尔和R.W.肯纳德于1970年提出了岭回归的概念,可以看作一种带二范数惩罚的最小二乘回归。R.蒂布希拉尼于1996年提出了套索回归,可视为带一范数惩罚的最小二乘回归,该方法在机器学习中占有重要地位。而随后提出的弹性网回归则是岭回归和套索回归的折中方法。除了上述参数化方法之外,线性回归分析法还发展出了局部加权线性回归算法等非参数方法。
线性回归分析法通过因变量对自变量进行回归,分析变量之间的相关关系,在一定的假设之下,可以对模型的参数估计值进行相应的统计推断,并且进行预测。线性回归通过最小化样本内观测值到某一拟合直线(或超平面)的距离来求解模型参数,实际应用中一般转化为最小化某种损失函数求解问题。需要注意的是,变量间的一些非线性关系可以通过数学变换转化为线性形式。此外,根据泰勒公式,线性回归模型可以看作对某种未知函数关系的近似。
线性回归分析法一般包括以下4个步骤:①确定因变量()与自变量(
,⋯,
)之间的定量关系即回归模型,模型一般设定为
的形式,其中
,⋯,
为模型待估参数,
为随机扰动项。②对回归模型进行参数估计,并且对估计得到的参数进行统计检验。③判断自变量对因变量有无影响,分析其相关关系。④根据估计的回归方程进行预测或者控制分析。线性回归模型通常使用最小二乘法求解,通过最小化残差平方和来得到模型的参数估计,也可以使用最小一乘法、最大似然法、最小角回归算法及贝叶斯等方法进行参数估计。
线性回归分析法最早应用于天文学、遗传分析等领域。在诸多工程学科、经济学、管理学和统计学等领域得到广泛应用,被用来分析变量间的相关关系及进行预测。此外,在大数据背景下,线性回归分析法也成功应用于机器学习等领域,例如套索回归便是一种有效处理高维数据的方法。
线性回归分析法历史悠久,相关理论已经比较成熟,即使面对复杂的非线性问题,线性回归也可以作为一个良好的起点,视为对未知函数关系的一阶近似。相对于非线性模型,线性回归模型的未知参数更加容易估计,并且更容易分析所得参数估计的统计性质。在大数据背景下,很多高维复杂问题,也可以根据一些特殊的线性回归方法得到简单有效的解答。