由统计学家I.T.乔利夫[注]于1982年首次提出。在响应变量和
个解释变量的回归模型中,当解释变量之间具有较强的多重共线性时,这时利用经典的回归方法求解回归系数的最小二乘估计,其效果一般都较差。而主成分分析(PCA)可以通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,从而避免了共线性带来的难题。
主成分回归的主要思想是首先通过主成分分析来简化原始变量,利用原始变量的线性组合将多个相关的原始变量指标转化为几个独立的综合指标,然后将得到的多个主成分作为回归模型解释变量的观测值,建立回归模型,以简化回归方程的结构。
主成分回归包括以下4个步骤:①根据研究问题选取初始变量。②根据初始变量特性从协方差阵或相关阵求解主成分,得到主成分的表达式并确定主成分个数并选取相应的主成分。③计算所有样品的多个主成分的得分,将其作为每个样品的解释变量的观测值。④将响应变量标准化,建立回归模型,进行回归分析。
主成分回归虽然可以解决变量之间共线性的问题,但也给回归模型的解释带来一定的复杂性,因为主成分是原始变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为主成分是某个原变量的属性的作用,其含义有时并不明确。因此在求得主成分回归方程后,经常又使用逆变换将其变为原始变量的回归方程。然而,当原始变量间有较强的多重共线性,并且选取的主成分又有较为明确的特殊含义时,采用主成分回归的效果往往较好。