图像和视频分析

首页 . 理学 . 计算机科学技术 . 计算机应用 . 多媒体计算 . 多媒体技术 . 多媒体内容分析和理解 . 图像和视频分析

/image and video analysis/

条目作者王树徽

王树徽

最后更新 2024-12-03

浏览 196次

最后更新 2024-12-03

浏览 196次

0 意见反馈条目引用

图像分析是利用数学模型并结合图像处理的技术来分析图像的底层视觉特征和高层语义结构，构造图像的描述方法，从而提取有用信息，对图像内容进行分析、解释和识别。视频分析是对由连续运动图像构成的视频内容进行分析、解释和识别。

英文名称: image and video analysis

拉丁文名称: Analysis imaginem et video

所属学科: 计算机科学技术

起源、发展和现状

图像和视频分析始于20世纪50年代的统计模式识别，当时的工作主要集中于二维图像分析和识别上，如光学字符识别、显微图片的分析和解释等。

20世纪60年代，罗伯茨（Roberts）通过计算机程序从数字图像中提取出立方体、棱柱体等多面体三维结构，并对物体形状及物体的空间关系进行描述。

20世纪70年代，麻省理工学院（MIT）人工智能（AI）实验室正式开设“计算机视觉”课程，由学者B.K.P.Horn主讲。1977年MIT AI实验室David Marr教授提出了新的计算视觉理论，成为计算机视觉研究领域中的一个十分重要的理论框架。

到了20世纪80年代中期，图像和视频分析获得了迅速发展，不断涌现出诸如主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论。

20世纪90年代，图像和视频分析技术取得较大发展，并开始应用于工业领域。一方面是由于图像处理硬件技术的进步，另一方面是由于统计方法和局部特征描述符的引入。英属哥伦比亚大学教授大卫·罗伊提出的SIFT算法，使得图像分析领域的研究思路发生重要变革。

进入21世纪，统计和机器学习方法在图像和视频分析领域得到广泛应用，使得图像和视频分析技术得到进一步发展，涌现出了视觉单词、词袋模型、空间金字塔模型、矢量量化，HOG、DPM等经典算法。

2010年以后，随着大规模数据集的出现、以及深度学习的快速发展，图像和视频分析技术得到了爆发式增长，模型可以自动从海量数据中归纳提取特征，完成各类任务，并迅速应用于各行各业。

创立人、奠基人、主要代表人物

David MarrKing-Sun FuUlf GrenanderThomas BinfordAndrew BlakeThomas HuangOlivier Faugeras

基本内容

局部图像特征：

SIFT特征、PCA-SIFT特征、SURF特征，DAISY特征等

全局图像特征：

颜色特征、纹理特征、形状特征、HOG特征、Haar-Like特征、LBP特征等

运动特征：

光流、DT特征、iDT特征等

底层语义任务：

斑点检测、边缘检测、角点检测、区域检测，图像超分辨率，视觉质量评估等

高层语义任务：

图像和视频分类，图像和视频识别，图像和视频分割，图像和视频描述，图像和视频去噪，目标检测，目标跟踪，动作检测，三维重建，事件检测等

应用

随着图像和视频分析技术的快速发展，越来越多的理论研究成果真正应用在实际生产生活中，并且发挥着至关重要的作用。在工业生产方面进行工业产品的自动质量检测、工业机器人的视觉导航等；在医学处理方面进行医疗影像分析、医学辅助诊断等；在遥感影像分析、智能安防、影视娱乐方面等也有广泛的应用。

重要学术机构和刊物

图像和视频分析领域重要的学术机构：

斯坦福大学 Stanford Vision Lab

加州大学洛杉矶分校 Center for Vision, Cognition, Learning, and Autonomy

加州大学伯克利分校 Computer Vision Group

麻省理工学院人工智能实验室

牛津大学 Visual Geometry Group

法国国家信息与自动化研究所

中国科学院自动化研究所模式识别国家重点实验室

香港中文大学多媒体实验室

n图像和视频分析领域重要的学术期刊：

PAMI：IEEE Transactions on Pattern Analysis and Machine Intelligence，IEEE模式分析与机器智能汇刊

IJCV：International Journal on Computer Vision，国际计算机视觉汇刊

TIP：IEEE Transactions on Image Processing，IEEE图像处理汇刊

TCSVT：IEEE Transactions on Circuits and Systems for Video Technology,IEEE电路和视频技术系统汇刊

CVIU：Computer Vision and Image Understanding，计算机视觉与图像理解

PR：Pattern Recognition，模式识别

n图像和视频分析领域重要的学术会议：

ICCV：International Conference on Computer Vision，国际计算机视觉大会

CVPR：International Conference on Computer Vision and Pattern Recognition，国际计算机视觉与模式识别大会

ECCV：European Conference on Computer Vision，欧洲计算机视觉大会

ICIP：International Conference on Image Processing，国际图像处理大会

BMVC：British Machine Vision Conference，英国机器视觉大会

ICPR：International Conference on Pattern Recognition，国际模式识别大会

ACCV：Asian Conference on Computer Vision，亚洲计算机视觉大会

主要学术争议，有待解决的重要课题，以及发展趋向

在图像和视频分析领域主要存在两种思想观点即联接主义和符号主义，两种观点从完全不同的角度看待这个领域，有着各自的适用范围，都发挥着至关重要的作用，也都存在自身无法解决的难题。

联接主义又称为仿生学派或生理学派，其主要原理为神经网络及神经网络间的连接机制与学习算法，实质上是对人类大脑神经网络的计算机模拟。该学派通过模拟人脑的认知过程，构建相应的神经网络，实现视觉信息的感知与理解，进行图像和视频分析。

符号主义，又称为逻辑主义、心理学派或计算机学派，其原理主要为物理符号系统（即符号操作系统）假设和有限合理性原理。该学派认为人是一个物理符号系统，计算机也是物理符号系统，故希望用计算机符号来模拟人的认知过程，它们将视频信息符号化处理，进行图像和视频分析。

从本质上讲联接主义和符号主义的思想和方法是相辅相成的，它们是一个系统紧紧缠绕不可分割的两部分，只是分析问题的时候，从这两个不同的角度看问题而已。未来，联接主义和符号主义必将走向联合，促进图像和视频分析领域新的思想理论方法的诞生。