有监督学习的训练数据具有监督信息(或标签),即训练集中的每个样本均由原始特征
和标签
组成。有监督学习的过程是在训练集的监督信息的指导下寻找“最优”的学习器
,通常以最小化训练集上的误差作为训练目标之一。通过有监督学习得到的学习器
,可以对任何标签未知的测试样本
做出预测。
有监督学习
机器学习中最常见的学习范式之一。其训练样本的期望输出已知,学习目的是对新样本的输出进行预测,典型任务包括分类和回归。又称监督学习。
- 英文名称
- supervised learning
- 又称
- 监督学习
- 所属学科
- 计算机科学技术
最常见的有监督学习问题是分类问题和回归问题。当数据的标签是离散的类别时,有监督学习问题就是分类(classification)问题,例如根据输入的图像判断图像中物体的类别;当标签
是连续的数值或数值向量时,有监督学习问题可以视为回归(regression)问题,例如根据影响天气的各种因素预测未来某时段的降水量。
其他典型的有监督学习问题还包括:排序问题、知识抽取、数据压缩等。
有监督学习可以从标注的训练数据中学习得到学习器,以处理无标注的测试数据。通常假设
来自一个模型族,并通过有监督训练从中选择“最好”的模型作为
。受训练数据、模型和算法的影响,有监督学习并不总能得到“最好”的模型。给定一个有监督学习任务,采用不同的模型和训练算法,其得到的
的性能可能各不相同,而且训练过程的复杂程度差异也很大。有监督学习的模型和算法很多,比较常见的列举如下:①
-近邻分类器(
-nearest neighbor classifier)。是最常见的分类方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最近的
个训练样本,然后基于这
个“邻居”的信息来进行预测。通常,可选择这
个样本中出现最多的类别标签,作为该测试样本的标签。②支持向量机(support vector machines, SVM)。在20世纪60年代被提出,在90年代后得到快速发展并衍生出一系列改进和扩展算法。通过训练,此模型可以给出使得不同类别的训练样本之间间隔最大的分类超平面。SVM性能优越,理论坚实。通过核方法,SVM可以解决非线性分类问题。③逻辑回归(logistic regression)。是一种基本的判别式分类方法,它用广义线性模型对数据建模,并通过逻辑斯谛(logistic)函数直接得到数据类别的后验概率的估计,从而产生一个二类的分类器。逻辑回归也可以扩展成为多类分类器。④决策树(decision tree)。是一种非常自然的有监督学习模型,其模型结构是包含根节点、内节点和叶节点的树。此模型把数据集根据预定义的属性层层映射到叶节点,最终产生决策结果,例如数据的类别标签。决策树可以通过训练集递归地建立。⑤贝叶斯分类器(Bayes classifier)。是一种产生式的分类模型,此模型利用贝叶斯规则,由数据的先验分布和似然来计算其后验概率分布,并通过最小化条件风险获得贝叶斯最优分类器。朴素贝叶斯分类器在此模型基础上增加了数据的属性之间相互独立的假设。⑥卷积神经网络(convolutional neural network,CNN)。是一种比较流行的深度学习模型,通常包含多个卷积层、采样层和连接层,此模型不仅可以学习输入数据的类别,而且具有很强的特征表达能力,可以从原始特征中学习逐层抽象的特征表示。这一模型在很多应用问题上取得了比传统特征表示和分类方法更优越的性能。
扩展阅读
- BISHOP C M.Pattern Recognition and Machine Learning.New York, NY:Springer,2006.
- CORTES C,VAPNIK V N.Support vector networks.Machine Learning,1995,20(3):273-297.