在视频结构化分析过程中,第一步是对视频进行镜头边缘检测,找出每个镜头的起始帧与结束帧位置。其中,视频镜头是指摄像机在一次连续操作期间拍摄所得的视频帧序列,在时间和空间上表示一个连续的动作。镜头内的视频帧图像,在其内容上是较为相似的,只有摄像机运动或物体运动会造成镜头内容的时序变化。因此,逐一在单个镜头内进行关键帧提取,即在每个镜头内根据帧图像内容的差异性变化选取单张或多张帧图像作为关键帧,就可得到整段视频的具有较好内容代表性的帧图像集合,这是常用的关键帧提取策略。
有关视频关键帧提取的研究,已有近30年的积累,且在不断持续更新中。既可在视频压缩域中直接选取出关键帧,也可在视频时空域中选取,后者居多。在具体技术实现上,可根据帧间相似度的变化特性来选定关键帧,也可利用多种聚类算法来实现镜头内视频帧的分簇并选定各簇的中心帧来作为关键帧。随着深度学习技术的兴起,各类深度神经网络模型也被广泛用于视频关键帧的提取,取得了很好效果,也促进了视频分析相关技术的发展,并在进一步深化研究探索中。