场景分类主要是识别给定图片中的场景类别(如办公室、操场、图书馆等)。早期方法主要基于手工特征编码技术。该类方法使用尺度不变特征变换(SIFT)、方向梯度直方图(HoG)等手工特征描述子抽取图像片段特征,而后利用视觉词袋模型(bag of visual word)及费希尔向量(Fisher vector)等特征编码方法将片段特征综合成全局图片特征,最后送入分类器进行识别。然而手工特征往往注重图像的细节描述,缺乏对场景的高层语义理解能力。随着大规模场景数据库(如Place、LSUN等)的出现,深度卷积神经网络(CNN)逐渐应用于场景分类任务,通过端到端的模型训练,CNN可以有效学习场景的高层语义特征,此类特征与手工底层特征往往具有互补性,通过特征或预测分数融合,可以达到良好的场景识别效果。
场景解析主要是对场景图片进行像素级别的分类。此任务主要利用语义分割技术实现对复杂场景中物体的形状、位置、标签的综合理解。其中,全卷积网络(fully convolutional networks,FCN)为最为经典的框架之一。此模型主要将最后的全连接层转化成卷积层,并对该层进行上采样实现像素级别分类。但是,FCN的空间感受野往往有限,这较大程度降低了分割的精细程度。空洞卷积(atrous convolution)的提出有效的增大感受野,缓解此类问题。另外,图片中的物体大小尺度多样,前景背景复杂且遮挡严重,因此多尺度特征融合、上下文建模也是场景解析的重要手段。