导致休斯现象的原因主要是由于特征空间维数增加,从而使样本数目相对减少,使得参数的估计值精度下降,引起最终分类结果精度的降低。
采用统计模式识别方法对多光谱资料进行分析时,通常假定每一种模式在特征空间都服从正态分布,并用一个向量和一个方差矩阵来描述。由于多光谱图像的维数较少,训练样本的数目相对于特征空间的维数有着较大的比率,因而可以得到较为准确的参数估计值。对于高光谱影像,由于维数的大幅度增加,导致用于参数估计所需的训练样本数目也急剧增加。如果训练样本的数目不满足特征空间维数增加的要求,则估计出的参数精度就难以保证。如某些重要的地面覆盖信息,由于所占面积较小,不能提供足够数量的训练样本点,往往不能得到满意的分类结果。在这种情况下,虽然光谱波段数目的增加隐含了更多的分类信息,但由于参数估计值不够精确,使得分类的结果与理想情况相差很大,产生所谓的Hughes现象。
对于小样本问题,如果利用现有的特征设计出的分类器效果不令人满意,那么考虑增加新的特征就是一个很自然的解决方法,特别有助于分开那些常常被混淆的类别。虽然新增加的特征会导致负面影响,增加了特征提取与分类器的计算复杂度,但通常分类器的性能在一定程度上能够得到改善。但是,在实际应用中,特征维数增加到某一个临界点后,继续增加反而会导致分类器的性能变差,即会出现休斯现象。休斯现象的出现通常与训练样本数目的多少和特征的维数有关。如果不限定训练样本数目,适当的增加新的特征,这种现象可能不会发生。同样,如果训练样本的数目是一个固定数,但这个数值很大时,以至于利用许多特征表示目标,休斯现象也可能不会发生。可是,当训练样本数目是一个固定数,而且这个数不满足特征维数任意地增加时,就会发生休斯现象。
为了缓解休斯现象,主要有几种方法,其中一个方法是增加一些无标签的训练样本。而在实际应用中,再增加训练样本的条件不是总能满足的。还有人提出更换分类器,其中支持向量机(SVM)是人们首选的分类器。这是由于SVM通过少量的支持向量确定最优超平面,从而使SVM并不受到样本数目的影响,即与休斯现象是无关的。在激光雷达目标识别中,尤其是机载雷达,图像采集的高成本和高难度使得不容易采集到大量的图像用于训练模板;并且,在实际应用中,目标识别过程千变万化,无论建立的模板与实际情况有多么接近,考虑的情况多么完整,也有考虑不周全的情况,这就要求所建立的识别系统有较强的学习能力、泛化能力和鲁棒性。在激光雷达目标识别中,对小样本的探讨,主要是通过分析样本数目和识别率关系来分析目标识别的泛化能力。在模式识别领域中,通常会避免一种情况:即与特征数目相比,训练样本不充足的情况。但是,本吉奥等人认为利用SVM识别也可能发生休斯现象。他认为SVM发生休斯现象与使用局部核有关。弗朗索瓦等人也认为SVM敏感于休斯现象,但是他们认为局部核比全局核有更好的泛化能力,可以避免发生休斯现象。
此外,特征选择和分类器集成是两种最为常用的方法。特征选择是解决这个问题最直接有效的方法。通过特征选择方法不但能提高分类的速度,还可以减少对数据存储的需求;分类器集成通过结合多个分类器的输出来增强分类器的准确率。另外,随机子空间集成(RSE)算法也是一种很好的选择,该算法属于特征选择和分类器集成相结合的方法。