特征选择

首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 特征学习 . 特征选择

/feature selection/

最后更新 2022-01-20

浏览 243次

最后更新 2022-01-20

浏览 243次

0 意见反馈条目引用

样本的属性称为“特征”，对当前学习任务有用的属性称为“相关特征”，没有用的属性称为“无关特征”；从给定的特征集中选择出相关特征子集的过程称为“特征选择”。

英文名称: feature selection

所属学科: 计算机科学技术

特征选择是一个重要的数据预处理过程。特征选择的主要出发点包括：（1）简化模型，增强模型的可理解性；（2）降低特征的维度，从而有效减轻维度灾难问题，同时也加快模型训练效率；（3）去除不相关的特征能够降低学习任务的难度。特征选择（Feature Selection）也称特征子集选择（Feature Subset Selection, FSS），或属性选择（Attribute Selection）。

使用特征选择技术的关键假设是：训练数据包含许多冗余或无关的特征，移除这些特征或选择出部分有效的特征并不会导致丢失信息。特征冗余与无关不同，表示该特征的信息可以通过其他特征推演出来，如果其他特征也出现在数据中，那么这个特征可能就变得多余。

特征选择的关键环节包括“子集搜索”和“子集评价”。子集选择的方法一般依赖于贪婪方法，如前向搜索、后向搜索或双向搜索。子集评价的准则有信息增益、AIC（Akaike information criterion）或BIC（Bayesian information criterion）。特征选择的方法根据选择算法与建模过程的不同主要分为三类，即过滤式方法、包裹式方法和嵌入式方法。

特征选择技术常常用于特征多但样本（即数据点）相对较少的领域。特征选择的典型用例包括：解析书面文本和微阵列数据，这些场景下特征成千上万，但样本只有几十到几百个。

特征选择

阅读历史

感谢您的反馈

特征选择

精选发现

相关条目

阅读历史

感谢您的反馈