首页 . 理学 . 计算机科学技术 . 计算机应用 . 多媒体计算 . 计算机视觉 . 高层视觉

场景理解

/scene understanding/
最后更新 2024-12-03
浏览 356
最后更新 2024-12-03
浏览 356
0 意见反馈 条目引用

场景理解的主要目标是准确判断视觉影像中的场景类别并综合分析该场景中所包含的物体与布局信息,它在自动驾驶、虚拟现实、机器人导航等相关领域中发挥重要作用。具体而言,场景理解主要包含场景分类、场景解析两大任务。

英文名称
scene understanding
所属学科
计算机科学技术

场景分类主要是识别给定图片中的场景类别(如办公室、操场、图书馆等)。早期方法主要基于手工特征编码技术。该类方法使用尺度不变特征变换(SIFT)、方向梯度直方图(HoG)等手工特征描述子抽取图像片段特征,而后利用视觉词袋模型(bag of visual word)及费希尔向量(Fisher vector)等特征编码方法将片段特征综合成全局图片特征,最后送入分类器进行识别。然而手工特征往往注重图像的细节描述,缺乏对场景的高层语义理解能力。随着大规模场景数据库(如Place、LSUN等)的出现,深度卷积神经网络(CNN)逐渐应用于场景分类任务,通过端到端的模型训练,CNN可以有效学习场景的高层语义特征,此类特征与手工底层特征往往具有互补性,通过特征或预测分数融合,可以达到良好的场景识别效果。

场景解析主要是对场景图片进行像素级别的分类。此任务主要利用语义分割技术实现对复杂场景中物体的形状、位置、标签的综合理解。其中,全卷积网络(fully convolutional networks,FCN)为最为经典的框架之一。此模型主要将最后的全连接层转化成卷积层,并对该层进行上采样实现像素级别分类。但是,FCN的空间感受野往往有限,这较大程度降低了分割的精细程度。空洞卷积(atrous convolution)的提出有效的增大感受野,缓解此类问题。另外,图片中的物体大小尺度多样,前景背景复杂且遮挡严重,因此多尺度特征融合、上下文建模也是场景解析的重要手段。

  • LI-JIA LI, SOCHER R , LI FEI-FEI.Towards Total Scene Understanding: Classification, Annotation and Segmentation in an Automatic Framework.[S.l.]:[s.n.],2009.
  • ZHOU B, LAPEDRIZA A, KHOSLA A, OLIVA A, TORRALBA A.Places: A 10 million Image Database for Scene Recognition.[S.l.]:[s.n.],2017.
  • LONG J, SHELHAMER E, DARRELL T.Fully convolutional networks for semantic segmentation.[S.l.]:[s.n.],2015.
  • CHEN L, PAPANDREOU G, KOKKINOS I, MURPHY K, YUILLE A L.Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs.[S.l.]:[s.n.],2015.
  • ZHAO H,SHI J,QI X,WANG X,JIA J.Pyramid Scene Parsing Network.[S.l.]:[s.n.],2017.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!