首页 . 理学 . 计算机科学技术 . 计算机应用 . 多媒体计算 . 计算机视觉 . 高层视觉

动作识别

/action recognition/
条目作者叶龙杨馨焱
条目作者叶龙

叶龙

杨馨焱

杨馨焱

最后更新 2024-12-03
浏览 140
最后更新 2024-12-03
浏览 140
0 意见反馈 条目引用

利用传感器技术,对智能体的运动数据进行采集、特征提取与分类,从而形成对智能体的动作类别的判断与检测。在无特殊说明的情况下,动作识别一般指利用视觉传感器,对视觉场景中的人体所呈现出动作的识别。

英文名称
action recognition
所属学科
计算机科学技术

对动作识别的研究可以追溯到20世纪90年代,早期的研究聚焦于对简单分解动作的识别。到21世纪初的10年开始出现关于高级动作识别的相关工作。至此,动作识别的发展都侧重于对时间、空间域或者运动轨迹上特征的提取,并选择合适的分类器实现识别过程。从2009年深度学习技术在图像识别任务上取得了革命性的突破以来,动作识别的研究方法被重新定义。由于神经网络的端对端特性,人们将研究重点从设计特征提取的方法转移到了设计模型网络结构上来。由于神经网络对复杂高维特征有较强的拟合能力,从简单分解动作识别到高级整体动作识别的跨越也变得更加容易。

动作识别的研究方法可分为3类:基于模板匹配方法、基于概率统计的方法,以及基于语法分析的方法。

基于模板匹配的方法通常从视频中提取特征,这些特征主要描述的是智能体目标的尺寸、颜色、边缘、轮廓、形状和深度等。然后,要用所提取特征与预先训练并存储的模板进行匹配,根据匹配程度判断运动的类别。根据匹配的对象是一个还是一组静态模式,可以将此类方法进一步分为模板匹配和动态时间规整。模板匹配是计算待识别目标的模板和候选视频区域之间的距离。动态时间规整则利用动态规划原理进行时间规整,以解决同一个动作在不同视频中持续时间差异性问题。

概率统计模型把动作表示成一个连续的状态序列,通过比较识别智能体的相关动作类别的概率密度分布,对动作类别进行判断。常用的概率统计模型可以分成产生式模型和判别式模型两大类。产生式模型以经典的隐马尔可夫模型为代表,而判别式模型则包括支持向量机、条件随机场等方法。随着深度学习神经网络的发展,卷积神经网络和长短期记忆网络的串联结构成为了解决动作识别中视频的时间和空间域特征提取的解决方案。神经网络通过深层的网络结构提取出的是高级抽象的机器特征,并在动作识别的领域中取得了突破性的进展。深度神经网络的优势在于可以直接将未处理过的原始数据作为输入得到输出,其劣势在于现今的研究并未突破有监督学习的问题,且需要非常大量的训练数据。

基于语法分析的方法将人体动作描述为一连串的符号,每一个符号代表了动作中的一个最小运动单元。这类方法需要首先识别这些最小运动单元,然后将人体动作表示为通过一系列生成规则形成的最小运动单元流。这种方法有利于对复杂结构的理解和对先验知识的有效利用,一般可与前两种方法结合。

动作识别是图像处理、模式识别机器学习人工智能计算机视觉多个领域的交叉研究课题,在视频监控、视频检索、人机交互虚拟现实等领域都有非常广泛的应用。子学科之间的结合和交叉发展也会在技术的应用上带来新的思路和突破,动作识别与自然语言处理这两个计算机科学学科结合衍生出了视频描述以及视觉问答这两个视觉理解问题的研究方向,在动作识别技术体系逐渐成熟作为基础的前提下,识别后进行动作预测也成为了动作模式分析中的一个热门的研究方向。

  • 胡琼,秦磊,黄庆明.基于视觉的人体动作识别综述.计算机学报,2013,36(12).
  • 徐光祐,曹媛媛.动作识别与行为理解综述.中国图象图形学报,2009,14(2).

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!