随着科学技术的发展,人们在实际应用过程中经常会碰到各种类型的海量数据。降维技术旨在将高维数据映射到更低维的数据空间上,可以更好地表示数据的结构。这类技术有利于对数据做进一步处理,解决高维数据可能引起的维度灾难问题。近年来,人们对降维技术的理论研究和技术应用等方面都取得了一定的进步,新的降维技术在被不断提出。
高维数据降维
将数据从高维空间(维)投射到低维空间(
维)的方法,其中
。通过降维可以更好地表示数据的结构。
- 英文名称
- high-dimensional data transformation
- 所属学科
- 统计学
研究者已陆续提出了多种降维方法,降维技术主要包含两类:变量选择和基于映射的降维。依据映射形式的分类,又分为线性降维和非线性降维。线性降维技术是出现最早的降维技术,包括主成分分析法(principal component analysis,PCA)、多维尺度分析法(multidimensional scaling,MDS)等。当数据为非线性结构时,运用线性降维的效果则不好,需要用非线性的方法对数据集进行降维。常见的非线性降维方法包括核化线性降维(如Kernel PCA)和流行学习(如等距映射法,局部线性嵌入法)等。
以下是部分常见的高维数据降维方法简介。
缺失值比率(missing value ratio),当缺失值在数据集中的占比过高时,可以设置一个阈值,如果变量的缺失值占比高于阈值,删除这一变量。阈值越高,降维方法越积极。
低方差滤波(low variance filter),通常认为低方差变量携带的信息量较少,所以可以将低方差变量删除。
主成分分析法(principal component analysis,PCA),将给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列,并且在变换中保持变量的总方差不变。变换后第一合成变量具有最大的方差,称为第一主成分;第二个合成变量的方差次大,并且和第一主成分不相关,称为第二主成分,依次类推。通常我们选取前个主成分将数据降维到维空间。
多维尺度分析法(multidimensional scaling,MDS),一种多维空间的研究对象(样本或变量),根据对象的相似程度,计算各个数据点在维空间中的位置,降维到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。多维尺度分析法的关键在于定义对象之间的距离函数,使得距离尽可能符合数据点在原始高维空间的分布。
等距映射法(Isometric Mapping ,Isomap),对经典多维尺度分析的扩展,其出发点与经典多维尺度分析法一致,但采用测地距离来刻画两点之间的差异。等距映射算法首先计算数据点之间的测地距离,然后对所生成的距离矩阵使用经典多维尺度分析获得相应的低维投影。
局部线性嵌入法(local linear embedding,LLE),一种针对非线性数据的无监督降维方法,是流形学习算法中的一种用局部线性反映全局的非线性的算法,并能够使降维的数据保持原有数据的拓扑结构。该方法可以很好表达数据的内在流形结构,能够保留数据的本质特征,在多维数据的可视化、图像数据的分类聚类、文字识别、故障诊断中有重要的意义。LLE 的提出进一步地扩展了研究者关于降维的认识,并提出了一系列的 LLE 变体。如拉普拉斯特征映射(Laplacian eigenmaps)的主要思想是先将数据集中的数据点与其最近邻居连接构建一个邻居图,并对图的每条边赋予相应的权值,接着寻求数据集的嵌入坐标表示,保证嵌入坐标的平方距离最小,从而得到最优的低维表示向量。
对原始空间的数据进行数据降维可以有效的解决“维数灾难”的问题,因此数据降维技术广泛应用于数据挖掘、模式识别、机器学习等领域。
扩展阅读
- JOLLIFFE I T.Principal Component Analysis.Berlin:Springer Series in Statistics,1986.
- BELKIN M, NIYOGI P.Laplacian Eigenmaps for Dimensionality Reduction and Data Representation.Neural Computation,2003,15(6):1373-1396.