展开全部 +
首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 特征学习 . 特征选择

特征选择

/feature selection/
最后更新 2022-01-20
浏览 243
最后更新 2022-01-20
浏览 243
0 意见反馈 条目引用

样本的属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没有用的属性称为“无关特征”;从给定的特征集中选择出相关特征子集的过程称为“特征选择”。

英文名称
feature selection
所属学科
计算机科学技术

特征选择是一个重要的数据预处理过程。特征选择的主要出发点包括:(1)简化模型,增强模型的可理解性;(2)降低特征的维度,从而有效减轻维度灾难问题,同时也加快模型训练效率;(3)去除不相关的特征能够降低学习任务的难度。特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection, FSS),或属性选择(Attribute Selection)。

使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,移除这些特征或选择出部分有效的特征并不会导致丢失信息。特征冗余与无关不同,表示该特征的信息可以通过其他特征推演出来,如果其他特征也出现在数据中,那么这个特征可能就变得多余。

特征选择的关键环节包括“子集搜索”和“子集评价”。子集选择的方法一般依赖于贪婪方法,如前向搜索、后向搜索或双向搜索。子集评价的准则有信息增益、AIC(Akaike information criterion)或BIC(Bayesian information criterion)。特征选择的方法根据选择算法与建模过程的不同主要分为三类,即过滤式方法、包裹式方法和嵌入式方法。

特征选择技术常常用于特征多但样本(即数据点)相对较少的领域。特征选择的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。


相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!