首页 . 理学 . 计算机科学技术 . 人工智能 . 机器学习 . 线性模型 . 类别不平衡学习

再缩放

/rescaling/
条目作者詹德川

詹德川

最后更新 2022-01-20
浏览 159
最后更新 2022-01-20
浏览 159
0 意见反馈 条目引用

一种常用的数据预处理方法。

英文名称
rescaling
所属学科
计算机科学技术

再缩放在机器学习中存在多种释义:①一种常用的数据预处理方法。由于待学习的数据的各个属性可能具有不同的量级,或者来自不同数据库的数据集采用了不同的度量单位,例如,同时存在“米”和“公里”两种长度单位,这种不统一的数据会对机器学习算法产生困扰,因此常用再缩放的方法来将数据变换到统一的形式或量级。常用的再缩放技术包括规范化(Normalization)和标准化(Standardization)两种。规范化将数值按比例缩放到一个小的特定区间中(常用[0,1]区间,称为“归一化”),将其转化为无量纲的纯数值,从而去除数据的单位限制,便于不同单位或量级的指标能够进行比较和加权。常用的规范化方法包括最大最小规范化、小数定标规范化等。与规范化不同,标准化会改变数据的分布,将数值减去均值后再除以标准差,从而将数据的均值变为0、标准差变为1。对于K-Means这样基于距离的算法,常使用规范化进行数据变换;而对于高斯过程这样基于样本分布的算法,则使用标准化处理数据。此外,当样本集的最大/最小值未知、或存在较多离群点时,也会选择使用标准化。②再缩放有时也用于表示对数据的权重进行调整,用于解决二类代价敏感问题;而对于多类代价敏感问题再缩放策略需要根据具体情况分别讨论,相关的研究在著作“ Computational Intelligence”(2010)中有详细讨论。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!