为了发现数据的聚类结构,1969年,美国数学家M.D.克鲁斯卡尔[注]首先使用投影寻踪方法,将高维数据投影到低维空间。1974年,美国统计学家J.H.弗里德曼和J.W.图基将该方法命名为投影寻踪。1981年,弗里德曼等学者相继提出投影寻踪回归、投影寻踪聚类、投影寻踪密度估计等方法。美国斯坦福大学D.L.多诺霍提出了用香农熵定义投影指标。1985年,美国哈佛大学统计学P.J.胡贝尔[注]发表了关于投影寻踪的综合性学术论文,对上述成果进行了概括和总结,初步建立了投影寻踪的研究体系,关于此方法的研究和应用逐渐展开。
投影寻踪是处理和分析高维数据的一种方法。在统计学中,高维数据是指数据特征维数超过样本量的数据。对高维数据的研究,传统的统计分析方法通常假定数据服从多元正态分布。然而许多实际数据往往不满足这个假定,因此使用传统方法进行研究,效果往往不好。之后产生了非参数统计和稳健统计,这两类方法对数据的正态性要求不高,当研究高维数据时,效果也不好。为了更好地处理、分析高维数据,投影寻踪方法应运而生。投影寻踪的基本思想是通过极大化(极小化)选定的投影指标,寻找能够反映原始高维数据结构或特征的投影方向,并将高维数据投影到低维空间,再在低维空间对数据进行分析。
运用投影寻踪方法研究数据的基本步骤包括以下4步。①依据初始化投影方向,得到高维数据在初始投影方向上的投影。②计算投影指标值。③根据某种优化算法(如遗传算法)调整投影方向,并重新计算投影指标值。④若相邻两次投影指标值的差值小于某一预先设定的阈值,则算法结束;否则,返回③。
投影寻踪成功的关键在于选择或构造合适的投影指标。投影寻踪指标可以用来衡量投影到低维空间上的数据是否有意义。通过找到一个或多个投影方向,使投影指标值达到最大(或最小)。根据数据分析工作的目的不同,所选择或构造的投影指标也会有所不同。常用的投影指标包括方差投影指标、库尔贝克-莱布勒绝对信息散度指标、弗里德曼-图基指标、一阶熵投影指标、弗里德曼投影指标等。
①方差投影指标,即为投影后数据的方差。极大化方差投影指标,得到的方向就是样本离散最大的方向。这种方差指标计算复杂度较低,但是没有考虑类内的密度。
②库尔贝克-莱布勒绝对信息散度指标。库尔贝克-莱布勒散度又称相对熵。由美国数学家S.库尔贝克[注]和R.A.莱布勒[注]在香农熵的基础上提出,可以很好地度量两个分布之间的距离。一般认为服从正态分布的数据含有的信息最少,感兴趣的是与正态分布差别大的结构。多元正态分布的任何一维线性投影仍然服从正态分布,因此,如果数据在某个方向上的投影与正态分布差别较大,那么该数据一定含有非正态的结构。高维数据在不同方向上的一维投影与正态分布的差别是不一样的,差异越大,认为在这一方向上所含有的有价值的信息越多。因此可以用投影后数据的分布与正态分布的差异作为投影指标。利用库尔贝克-莱布勒散度作为投影指标,目的是选择投影矩阵,使得投影以后的数据分布与正态分布有最大的差异。由于库尔贝克-莱布勒散度不具有对称性,因此提出了库尔贝克-莱布勒绝对信息散度。库尔贝克-莱布勒绝对信息散度是对称和非负的,衡量了两个分布之间的差异大小。随着两个分布之间差异的增大,库尔贝克-莱布勒绝对信息散度增加;若两个分布的概率密度函数相同,则库尔贝克-莱布勒绝对信息散度为零。
③弗里德曼-图基指标。弗里德曼用投影寻踪方法对分类或聚类问题中的数据分布特征进行分析后发现,研究者感兴趣的方向是投影后能使类内的数据尽可能集中分布,而数据的整体离散程度尽可能大,即同类的内部数据离散程度尽可能小,密度较大,而不同类间的数据离散程度尽可能大,即组内差异足够小,组间差异足够大。因此,弗里德曼定义了以下离散度投影指标:。式中
为任意一个投影方向;
为样本数据投影到
方向后的总体离散程度,即类间距离;
为样本数据投影到
方向后的局部密度,即类内密度。弗里德曼-图基指标综合考虑了数据的整体离散程度和局部集中程度。
④一阶熵投影指标。一阶熵测度作为投影指标表示为:
(1) |
式中为高维数据的投影。式(1)为香农熵,标准正态密度可以使得该熵值达到最小。
⑤弗里德曼投影指标。1987年弗里德曼通过对投影数据进行变换消除了异常点对投影指标的影响。弗里德曼投影指标为:
(2) |
式中为
的密度函数。弗里德曼投影指标度量了投影的分布与标准正态分布之间的差异。
投影指标的设计和选择取决于研究问题的特点。因此可以根据不同的数据分析任务建立合适的投影寻踪指标。选定投影指标后,可以使用具体的优化算法来优化该指标,找到最优的投影方向。常见的算法包括遗传算法、粒子群优化算法等。
投影寻踪具有如下5个优点:①解决了高维数据稀疏分布造成的“维数灾难”问题,该方法对数据的分析是在降维后的低维空间(1~3维)中进行。将高维数据投影到低维空间,数据点变得更密集,便于发现数据在投影空间中的结构或特征。②消除与数据结构无关或关系很小的变量的干扰,有效地发现高维数据的结构和特征。当数据的维数较高时,数据的结构一般既不会只表现在一个投影方向上,也不会表现在所有的投影方向上,而是表现在某几个投影方向上,那些与结构无关的投影所造成的影响干扰了对数据结构和特征的分析。投影寻踪方法能够找到反映高维数据的本质结构和特征的最佳投影方向,消除与数据结构无关或影响不大的变量的影响。③稳健性好。投影寻踪采用探索性数据分析方法,与传统的验证性数据分析方法相比,无须人为假定,损失的信息较少,能找到数据内在规律,稳健性好。④解决某些非线性问题。投影寻踪方法虽然是以数据的线性投影为基础,但所寻找的是数据中的非线性结构,因此可以用投影寻踪方法来解决某些非线性问题,如多元非线性回归。⑤投影寻踪与人工神经网络、小波分析等相结合,可给出新的统计计算方法。一些传统的多元统计分析方法,如主成分分析、独立成分分析是投影寻踪方法的特例。
根据分析问题方法的不同,可以将投影寻踪的思想应用到不同类型的问题中,在后来的发展中,弗里德曼等学者逐渐扩展投影寻踪方法的基本思想,提出了投影寻踪回归(PPR)、投影寻踪分类(PPC)、投影寻踪密度估计(PPDE)等方法。这些方法对数据的分布基本不做假定,且投影寻踪技术较为成熟,被广泛应用于高维数据的分析中。