特征选择是一个重要的数据预处理过程。特征选择的主要出发点包括:(1)简化模型,增强模型的可理解性;(2)降低特征的维度,从而有效减轻维度灾难问题,同时也加快模型训练效率;(3)去除不相关的特征能够降低学习任务的难度。特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection, FSS),或属性选择(Attribute Selection)。
使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,移除这些特征或选择出部分有效的特征并不会导致丢失信息。特征冗余与无关不同,表示该特征的信息可以通过其他特征推演出来,如果其他特征也出现在数据中,那么这个特征可能就变得多余。
特征选择的关键环节包括“子集搜索”和“子集评价”。子集选择的方法一般依赖于贪婪方法,如前向搜索、后向搜索或双向搜索。子集评价的准则有信息增益、AIC(Akaike information criterion)或BIC(Bayesian information criterion)。特征选择的方法根据选择算法与建模过程的不同主要分为三类,即过滤式方法、包裹式方法和嵌入式方法。
特征选择技术常常用于特征多但样本(即数据点)相对较少的领域。特征选择的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。