机器学习中传统的监督学习主要包括分类和回归,分类就是要将被识别对象分到K个离散的类别中的某一类。通常情况下,类别互不相交,每个对象只属于唯一类别。可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判定规则的输入,按此规则来对样本进行分类。在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生。例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形,这种现象是确定性的现象。但在现实世界中,对许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们被观察到的特征具有统计特性。特征值不再是一个确定的向量,而是一个随机向量。此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。
分类器的构造通常包括:①选择并划分样本为训练和测试两部分。②在训练集上训练分类模型。③在测试集上获得预测结果。④根据评价指标对分类模型的性能进行评估。
机器学习中常用的分类器包括:①逻辑斯谛回归(logistic regression)。又称逻辑回归。逻辑回归是一种对数线性模型,假设数据服从逻辑分布,通过固有的逻辑函数估计概率,通过比较概率值来判断类别。②支持向量机(support vector machine)。支持向量机是指特征空间上间隔最大的线性分类器。它还包括核技巧,故实质上其属于非线性分类器。它的核心思想间隔最大化,可形式化为一个求解凸二次规划的问题。③朴素贝叶斯(naive Bayes)。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。首先通过特征条件独立假设学习训练集中输入输出联合概率分布,然后根据此模型,利用贝叶斯定理对每个输入求出后验概率最大的输出。④k近邻(knearest neighbor)。k近邻是一种非参数统计方法。当训练集、距离度量、k值以及分类决策规则确定后,任何一个特征实例的类别都确定了,实际上是对特征空间的一个划分。⑤决策树(decision tree)。决策树通过构建一种树结构来辅助决策。一棵决策树可以明确表明决策的过程,可以认为是定义在特征空间与类空间上的条件概率分布。