在传统的机器学习框架下,样本对象拥有单一的语义,即每个样本所对应的类别标记是唯一的。这种框架下的机器学习任务已经获得了巨大的成功。然而,真实世界中的样本对象往往不符合这种单一性的假设,而是可能具有多义性的,即一个样本可能对应多个类别标记。在这种情况下,传统的单标记机器学习方法很难取得很好的分类效果,因此多标记学习作为一种多义性建模工具应运而生。在多标记学习框架下,样本集中的每个对象可以与一个或者多个类别标记相对应,学习得到的模型也可以为每个新样本关联一个或者多个类别。
多标记学习在真实世界中有着非常丰富的应用场景。例如:在新闻文本标注任务中,一篇新闻报道可能会和多个领域有关;在图像处理方面,一张自然图片可能会包含多个物体对象;在生物信息处理领域,一种蛋白质结构可能会表现出多种功能。多标记学习技术已经在信息检索、商品推荐、生物信息处理、多媒体信息自动标注等领域得到了广泛的应用,与之相关的很多研究成果也相继发表在国际顶级刊物上。
多标记学习方法从总体上可以分为两大类,即问题转化法和算法适应法。问题转化法的基本思想是通过对训练样本的处理,把多标记分类问题转化成已知的其他问题来求解,例如将一个多标记分类问题转化成一系列子问题或标记排序问题,最具代表性的问题转化方法为二元相关(Binary Relevance)法,该算法将多标记学习问题转化为多个二元分类问题进行求解。算法适应法的基本思想是通过改进现有的经典机器学习方法来处理多标记分类问题,比如通过对支持向量机、近邻、决策树、神经网络等方法进行改进,使其能够直接处理多标记分类问题。越来越多的多标记学习相关研究专注在类别标记之间的相关性(correlation)上,研究人员意识到充分利用标记之间的相关性是构造具有强泛化能力的多标记学习系统的关键,因此,利用一些比较前沿的方法——如图神经网络——来对标记之间的相关性进行建模成为机器学习领域的热点研究。
由于样本对象可以同时对应多个类别标记,因此传统的单标记学习中常用的评价指标不再适用于多标记学习问题。在多标记学习中,分类结果的测评标准要比传统单标记分类更加复杂,常用的多标记分类评测指标有Hammingloss、Averageprecision、Rankingloss、Subsetaccyracy、Macroaveraging、Micro-averaging等,这些评价指标从不同的角度来衡量学习系统的泛化性能,并不存在适用于所有问题的通用多标记评价指标,其选择依赖于具体的学习任务。
相比于单标记样本集的获取,多标记样本的收集和标注往往需要耗费更多的资源,因此除了监督式的多标记学习,研究者们还对多标记学习进行了监督学习外的拓展。例如由于真实世界中获得的多标记样本通常含有不同程度的噪声样本,因此开发对于标记噪声具有鲁棒性的学习方法具有重要意义。再如,在真实问题中,往往可以以较小的代价获得大量未标记数据,因此半监督多标记学习能够很好地利用未标注数据来提高多标记分类准确率,这些结合弱监督框架的建模方法在解决应用问题时往往更具现实意义。