杠杆子抽样最早由P.追尼亚斯(Petros Drineas)、M.W.玛哈尼(Michael W.Mahoney)和S.穆杜克里斯曼(S.Muthukrishnan)于2006年提出,他们考虑如何在最小二乘回归问题里选取子样本来有效地估计参数。随后,马平、M.W.玛哈尼和郁彬于2015年从统计角度深入分析了杠杆子抽样的性质,并提出了两个新的杠杆子抽样方法。再后来,杠杆子抽样被推广到分位数回归、广义线性回归等领域,得到更进一步的发展。
杠杆子抽样
对样本进行独立有放回抽样获得子样本以代替其进行分析的方法,抽取过程中,每个数据点被抽到的概率正比于它的杠杆值。
- 英文名称
- leverage sub-sampling
- 所属学科
- 统计学
对于数据维数远远小于数据量
的情况,即
,区别于简单随机子抽样,杠杆子抽样对每个样本赋予不同的抽取概率,然后利用抽取的子样本代替原有数据进行分析,可以成功将数据量减小,很好地解决大规模数据问题。简单随机抽样考虑每个样本重要性一致,而杠杆子抽样用杠杆值衡量每个样本的重要性,在某些程度上更为有效。下面以经典的最小二乘回归为例,描述杠杆子抽样的具体内容。
考虑经典的线性模型:
式中为因变量;
为
维的自变量;
为未知参数向量;
为独立的服从均值为0,方差为
的误差项。记
是因变量向量,
是自变量矩阵。那么由最小二乘法,参数向量
可以由下式得到:
式中记为欧几里得范数。
记,那么
的杠杆值是
。记
。杠杆子抽样方法如下:①对原始数据以概率
独立有放回地抽取
个样本。记被抽取的子样本对应的自变量矩阵为
,因变量向量为
,概率向量为
。②对子样本进行带权重的最小二乘回归:
式中。
为了避免复杂的杠杆值的计算,P.追尼亚斯、M.W.玛哈尼和D.P.伍德拉夫(David P.Woodruff)提出基于随机投影的算法快速有效的估计杠杆值。
马平、M.W.玛哈尼和郁彬于2015年指出:在最小二乘回归框架下,是
的渐进无偏估计,更进一步地,
是真实参数向量
的渐进无偏估计。
马平、M.W.玛哈尼和郁彬于2015年提出两个新的杠杆子抽样方法,其一是压缩杠杆子抽样,考虑的抽样概率是,
,其二是无权重杠杆子抽样,即将杠杆子抽样里第二步改为无权重的最小二乘回归。从实际数据分析角度来看,有效地提升了估计表现。同时,他们还发现,杠杆子抽样和简单随机子抽样没有优劣之分,采用哪种方法更有效需要视具体情况而定。
杠杆子抽样是重要的子抽样方法之一,在某些程度上可以有效处理数据维数远远小于数据量的大规模数据问题。杠杆子抽样广泛应用于解决大规模最小二乘回归问题,也很好地适用于基于抽样的矩阵降秩问题、广义线性回归、分位数回归、时间序列模型、测量受限制的监督学习、核方法等。杠杆子抽样在实际中有广泛的应用,已成功地用于网络数据诊断、分布式计算、隐私保护等领域。
扩展阅读
- DRINEAS P,MAGDON-ISMAIL M,MAHONEY M W,et al.Fast Approximation of Matrix Coherence and Statistical Leverage.The Journal of Machine Learning Research,2012,13(1):3475-3506.