此类方法将特征对响应变量的相关程度,即特征相关度,作为特征选择的评估准则,首先基于训练数据计算得到输入特征的相关度,并选出相关度较高的特征,将所得相关特征用于后续预测。在选择特征时,可根据单个特征的相关度将其排序、根据预设的阈值对低排名(即不相关)的特征进行滤除,也可计算特征子集的相关度和通过搜索或目标函数优化得到较优特征子集。
由于无需额外学习,且与后续使用的预测模型无关,过滤方法可视为一种预处理方法,相较于其他特征选择算法所需的计算量通常更小、其泛用性更高,尤其在特征数量较大时有着不可或缺的作用;但另一方面,缺乏模型针对性也使得其选择得到的特征并不一定适用于后续模型,性能往往弱于其他方法。
过滤方法最早出现于20世纪60年代。此类方法的关键在于如何定义特征相关度,常用度量主要包括统计度量、信息度量、距离度量、一致性度量等。统计度量通过特征与响应变量的统计相关性来判断其好坏,如计算每个特征与响应变量的皮尔逊相关系数、费希尔分数,或进行卡方检验、WelchT检验等,简单易得。信息度量从信息论角度出发,计算特征与响应变量的互信息等指标判断特征中包含的信息量以进行度量,更可引入特征间的互信息进行补充保证信息完整性或使用对称不确定性作为度量提升非线性相关性判断能力。距离度量通过特征对响应变量的条件概率分布间的距离以判断其区分能力,根据特征取值连续或离散可选择欧氏距离、明氏距离等进行度量,著名的Relief及其变种算法即属于该类。一致性度量针对离散特征,考虑两个样本在某一特征上值相等但响应变量不同的情况,并将其作为特征区分能力的表征,但对噪声较为敏感。此外,在搜索或优化求解子集的情况下,进化算法和子模优化等方法也被应用于求解该问题。
过滤方法已成为被广泛应用的特征选择方法之一,在深度学习研究不断发展的今天也可作为重要的前处理步骤辅助提升模型性能。在此方法中,特征相关度的定义、搜索或优化求解算法,以及泛用性的提升仍将是未来研究的重点。