首页 . 理学 . 统计学 . 大数据统计分析 . 机器学习

基于惩罚的整合分析

/penalized integrative analysis/
条目作者马双鸽

马双鸽

最后更新 2024-04-25
浏览 147
最后更新 2024-04-25
浏览 147
0 意见反馈 条目引用

基于惩罚变量选择方法的多数据集分析方法。

英文名称
penalized integrative analysis
所属学科
统计学

惩罚方法是单数据集变量选择中使用最为广泛的一类方法,它通过压缩未知参数值的方式,同时实现变量选择和参数估计。惩罚方法最初缘起于1995年,由加州大学伯克利分校统计学家L.布赖曼[注]提出的NNG(Non-Negative-Garrote)方法。具有里程碑意义的惩罚方法是由美国统计学家R.提伯史瑞尼在1996年提出的LASSO算法。此后发展出多种基于惩罚的变量方法,如2001年范剑青和李润泽提出的SCAD算法以及2007年由张存辉提出的MCP算法等单变量选择方法;2005年由邹辉和T.黑斯蒂[注]提出的弹性网方法等处理高度相关数据的变量选择方法;2006年由袁明等提出的组套索方法等组变量选择方法;2009年由黄坚和马双鸽提出的L2组Bridge(group bridge)方法等双层选择方法。整合分析的研究始于20世纪60年代,该方法同时分析多个独立数据集,兼顾数据集之间的同质性和异质性,同时求解多个模型,避免由于地域、时间等因素造成的样本差异给模型带来的不稳定性。黄坚和马双鸽等人于2012年提出基于惩罚方法的整合分析方法,将惩罚变量选择方法与整合分析结合,实现模型选择和数据集关联性分析。

整合分析将同一解释变量在不同数据集中的系数视为一个组,利用惩罚函数对系数组进行压缩,挖掘变量间的关联性,同时实现参数估计和变量选择。在多数据集的整合分析中,每个解释变量对应的系数不再是一个而是一组,系数不仅具有单个数据集模型的变量意义,同时蕴含各数据集之间的关联性。同一组内的系数具有某种关联性,若分别对数据集进行参数估计或变量选择则会忽略这种特性;不同数据集间又存在着差异性,亦不可简单的将多个数据集放在一起做综合估计。基于惩罚的整合分析充分利用了以上特殊性,模型一般形式为损失函数与惩罚函数的组合,其中损失函数是建立在所有数据集上的损失函数,即各数据集上的损失函数之和。惩罚函数通过调整参数的值,最优化目标函数,同时实现参数估计和变量选择。

根据数据产生背景中的先验信息,可将多数据集分为同构型结构和异构型结构,两种结构的惩罚整合分析方法不同。①同构型结构是指解释变量在各模型中的显著性是一致的,即变量的选择为整组选择,只需考虑组间选择,无须组内选择。其惩罚函数的特点是:组间的惩罚函数具有变量选择功能,组内的惩罚函数只有压缩而无变量选择功能,如L2组Bridge等。②异构型结构中解释变量在各个数据集中的显著性不一定相同,变量选择不仅要考虑解释变量的显著性,还需考虑该变量在哪些模型中显著。现有方法可分为复合组惩罚类和稀疏组惩罚类,其中复合惩罚函数与同构数据的惩罚函数形式相同,此时组内和组间的惩罚函数都具有单变量选择效果,例如,组内是Lasso,组间是MCP惩罚函数。稀疏组惩罚楽是两个惩罚函数的线性组合,两个函数分别作用于系数组和每一个系数,共同实现选择功能和单变量选择功能。③此外,还有针对网络结构关系的惩罚整合分析的研究,基于惩罚的整合分析计算常通过坐标下降法实现。

基于惩罚的整合分析在教育学、心理学和医学领域内应用较为广泛,解决了地域、时间等因素对模型稳定性的影响,有效提高预测结果。同时,基于惩罚的整合分析是研究大数据问题中挖掘数据集的关联性与差异性、实现降维去噪的有效方法。大数据通常由来源不同的数据集构成,具有高维性和稀疏性的特点。基于惩罚的整合分析能同时分析多个数据集,有效地利用数据集之间的差异,从而避免了由数据来源差异引起的建模不稳健问题。在大数据的背景下,将会得到越来越广泛的应用。

  • TIBSHIRANI R.Regression Shrinkage and Selection via the Lasso.Journal of the Royal Statistical Society: Series B (Methodological),1996,58(1):267-288.
  • ZOU H,HASTIE T.Regularization and Variable Selection via the Elastic Net.Journal of the royal statistical society: series B (statistical methodology),2005,67(2):301-320.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!