杠杆子抽样

首页 . 理学 . 统计学 . 大数据统计分析 . 数据简化 . 子抽样 . 简单随机子抽样 . 杠杆子抽样

/leverage sub-sampling/

条目作者孟澄

孟澄

最后更新 2023-05-18

浏览 205次

最后更新 2023-05-18

浏览 205次

0 意见反馈条目引用

对样本进行独立有放回抽样获得子样本以代替其进行分析的方法，抽取过程中，每个数据点被抽到的概率正比于它的杠杆值。

英文名称: leverage sub-sampling

所属学科: 统计学

简史

杠杆子抽样最早由P.追尼亚斯（Petros Drineas）、M.W.玛哈尼（Michael W.Mahoney）和S.穆杜克里斯曼（S.Muthukrishnan）于2006年提出，他们考虑如何在最小二乘回归问题里选取子样本来有效地估计参数。随后，马平、M.W.玛哈尼和郁彬于2015年从统计角度深入分析了杠杆子抽样的性质，并提出了两个新的杠杆子抽样方法。再后来，杠杆子抽样被推广到分位数回归、广义线性回归等领域，得到更进一步的发展。

基本内容

原理

对于数据维数 $p$ 远远小于数据量 $n$ 的情况，即 $p\ll n$ ，区别于简单随机子抽样，杠杆子抽样对每个样本赋予不同的抽取概率，然后利用抽取的子样本代替原有数据进行分析，可以成功将数据量减小，很好地解决大规模数据问题。简单随机抽样考虑每个样本重要性一致，而杠杆子抽样用杠杆值衡量每个样本的重要性，在某些程度上更为有效。下面以经典的最小二乘回归为例，描述杠杆子抽样的具体内容。

考虑经典的线性模型：

$y_i=x^T_i\beta_0+\epsilon_i,i=1,2,\cdots,n\tag*{$\ $（1）}$

式中 $y_i$ 为因变量； $x_i$ 为 $p$ 维的自变量； $\beta_0\in \mathbb{R}^p$ 为未知参数向量； $\{\epsilon_i\}^n_{i=1}$ 为独立的服从均值为0，方差为 $\sigma^2$ 的误差项。记 $y\in R^n$ 是因变量向量， $X\in\mathbb{R}^{n \times p}$ 是自变量矩阵。那么由最小二乘法，参数向量 $\beta_0$ 可以由下式得到：

$\hat \beta_{OLS}=argmin_\beta\parallel y-X \beta \parallel^2\tag*{$\cdots$（2）}$

式中 $\parallel \cdot \parallel$ 记为欧几里得范数。

记 $H=X(X^TX)^{-1}X^T$ ，那么 $x_i$ 的杠杆值是 $H_{ii}$ 。记 $\pi_i=H_{ii}/p,i=1,2,\cdots n$ 。杠杆子抽样方法如下：①对原始数据以概率 $\{\pi_i \} ^n_{i=1}$ 独立有放回地抽取 $r$ 个样本。记被抽取的子样本对应的自变量矩阵为 $X^*$ ，因变量向量为 $y^*$ ，概率向量为 $\{ \pi^*_1,\cdots , \pi^*_r \}$ 。②对子样本进行带权重的最小二乘回归：

$\widetilde \beta_W=\text{argmin} _\beta(y^*-X^*\beta )^TW(y^*-X^*\beta)\tag*{$\cdots$（3）}$

式中 $W=\mathrm{diag}(1/\pi^*_1,\cdots ,1/\pi^*_r)$ 。

为了避免复杂的杠杆值的计算，P.追尼亚斯、M.W.玛哈尼和D.P.伍德拉夫（David P.Woodruff）提出基于随机投影的算法快速有效的估计杠杆值。

马平、M.W.玛哈尼和郁彬于2015年指出：在最小二乘回归框架下， $\widetilde \beta_W$ 是 $\hat \beta_{OLS}$ 的渐进无偏估计，更进一步地， $\widetilde \beta_W$ 是真实参数向量 $\beta_0$ 的渐进无偏估计。

拓展

马平、M.W.玛哈尼和郁彬于2015年提出两个新的杠杆子抽样方法，其一是压缩杠杆子抽样，考虑的抽样概率是 $\pi^{SLEV}_i=\alpha H_{ii}/p+(1-\alpha)/n$ ， $\alpha\in [0,1]$ ，其二是无权重杠杆子抽样，即将杠杆子抽样里第二步改为无权重的最小二乘回归。从实际数据分析角度来看，有效地提升了估计表现。同时，他们还发现，杠杆子抽样和简单随机子抽样没有优劣之分，采用哪种方法更有效需要视具体情况而定。

应用

杠杆子抽样是重要的子抽样方法之一，在某些程度上可以有效处理数据维数远远小于数据量 $n$ 的大规模数据问题。杠杆子抽样广泛应用于解决大规模最小二乘回归问题，也很好地适用于基于抽样的矩阵降秩问题、广义线性回归、分位数回归、时间序列模型、测量受限制的监督学习、核方法等。杠杆子抽样在实际中有广泛的应用，已成功地用于网络数据诊断、分布式计算、隐私保护等领域。

扩展阅读

DRINEAS P，MAGDON-ISMAIL M，MAHONEY M W，et al．Fast Approximation of Matrix Coherence and Statistical Leverage．The Journal of Machine Learning Research，2012，13(1)：3475-3506．