传统的线性回归模型描述了因变量的条件均值分布受自变量的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来自均值为零、方差相同的分布,那么回归系数的最小二乘估计为最佳线性无偏估计(BLUE);如果随机误差项是正态分布,那么回归系数的最小二乘估计与极大似然估计一致,均为最小方差无偏估计(MVUE)。此时它具有无偏性、有效性等优良性质。但是在实际的生活中,这种假设通常不能够满足。例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良性质。为了弥补普通最小二乘法(OLS)在回归分析中的缺陷,1818年P.-S.拉普拉斯提出了中位数回归(最小绝对偏差估计)。在此基础上,1978年R.科恩克(Roger Koenker)和G.巴塞特(Gilbert Bassett)把中位数回归推广到了一般的分位数回归上。
分位数回归相对于最小二乘回归,应用条件更加宽松,挖掘的信息更加丰富。它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通的最小二乘回归,能够更加精确地描述自变量X对因变量Y的变化范围,以及条件分布形状的影响。
分位数回归的原理以及参数估计方法如下:假设随机变量Y的分布函数为。Y的
分位数为:
。
定义损失函数为:
。
对于分位数函数,通过求解下式得到参数估计值:
。
此最小化问题可以转化为如下线性优化问题(linear programming problem):
式中。这个线性规划问题可以通过单纯形算法(simplex method)、内点算法(interior point Method)、平滑算法(smoothing method)实现。
分位数回归的假设检验包括:①与均值类似的检验,如拟合优度检验、拟似然比检验和瓦尔德(Wald)检验等。②分位数估计特殊要求的检验,如斜率相等检验和斜率对称性检验等。其中, 斜率相等检验是指检验对于不同的分位点,估计得到的结构参数(在线性模型中即斜率)是否相等。而 斜率对称性检验是检验对于给定的X,Y的分布是否是对称的。如果接受斜率相等性假设,就不必进行斜率对称性检验;如果拒绝斜率相等性假设,则需要进一步进行斜率对称性检验。