回归分析的主要目的包括研究因变量与自变量之间的依赖关系以及预测因变量的取值,其以因变量对自变量的条件分布的数字特征为研究对象。记因变量为,自变量为
,则回归分析的一般模型表示为:
式中为随机误差,表示一些随机性的、难以预知且不可控的因素;
为回归函数;而
称为回归方程。随机误差往往假定在给定因变量的条件下期望为零。回归函数
常表示因变量
给定自变量
的条件期望、条件分位数等。
依据回归函数假设形式的不同,回归分析模型称为线性回归模型、广义线性回归模型、部分线性模型、非线性回归、非参数回归模型,等等。其中,线性回归模型是历史最久、研究和应用最为深入广泛的一类回归模型。
在利用观测到的数据估计回归函数时,往往依据因变量的分布假设和回归函数
的假定形式选择相应的估计方法。回归函数的估计过程中还常常涉及模型或变量选择和回归诊断。
“回归”这个名称源自英国生物学家、统计学家F.高尔顿在19世纪下半叶的一项研究工作,他用该词描述父代身高和子代身高之间的关系。现代回归分析沿用“回归”这一名词来表示变量之间的关系。