基于分歧的半监督学习方法是一类使用多个学习器,并利用各个不同学习器之间“分歧”进行训练的半监督学习方法。此处“分歧”指的是多个学习器对同一样本具有不同的预测结果。训练过程中,这一类方法每次挑选一组在每个训练器上取得较高置信度的无标记样本进行伪标记,并用伪标记样本训练其他学习器,使得多个分类器达到“互相学习”的效果;这一过程迭代进行,直至各个学习器不再变化或满足预先设定的迭代轮数,再选取一个学习器或集成各个学习器作为最终的模型。相关理论研究发现,多个基学习器之间具有显著的分歧是多个学习器能够“互相学习”提升性能的关键。
基于分歧的半监督学习方法最初起源于协同训练(co-training)算法,该方法最初仅针对具有多视图的半监督学习任务设计,依赖不同视图构建多个分类器。此后出现的许多基于分歧的半监督学习方法发现利用不同的数据采样技术或学习算法产生多个不同的分类器也能有效地利用无标记数据,消除了对多个视图的依赖。