体育视频是一类重要的多媒体数据,其拥有广泛的受众群体。体育比赛有着特定的结构与规则,借助于这些结构和规则有助于对视频内容的理解和计算。体育视频分析的计算框架包含3个层次:底层特征提取、中层语义表征和高层语义分析。底层特征提取是指对体育视频中视觉特征、听觉特征和文本特征的计算和抽取。视觉特征包括颜色特征、形状特征、纹理特征、局部特征、运动特征等;听觉特征包括MEL频率倒谱系数特征(MFCC)、线性预测倒谱系数特征(LPCC)、线性预测系数特征(LPC)、短时能量特征等;文本特征包括比赛现场出现的文本,如球员球衣上的姓名、号码,视频转播中叠加的比分、球员姓名、字幕,视频解说识别转录文本,网络文字直播文本,比赛相关新闻文本,等等。
中层语义表征是连接底层特征和高层语义的桥梁,通过对特定语义概念的检测和表征有助于理解高层语义。常用的中层语义表征计算包括镜头分类、慢动作回放场景检测、赛场特定区域定位、感兴趣目标的检测与运动轨迹生成、音频关键字与文本关键字等。镜头类型包括赛场远景镜头、赛场中景镜头、近景特写镜头、场外镜头等。镜头类型和镜头切换模式在一定程度上可以反映比赛的进程。慢动作回放场景是在体育比赛转播中常用的特效手法,对于重要事件检测有着重要的提示作用。赛场特定区域定位是指比赛中当前镜头画面对应在比赛场地上的位置。感兴趣目标的检测与运动轨迹生成是对运动员、球、球门、篮筐等目标位置的检测与跟踪。将目标的位置与运动轨迹投影到重建的二维或三维比赛场地中,可以更方便地对比赛进行分析。音频关键字包括击球音、裁判哨音和语音、解说员语音和观众声音等。文本关键字包括视频画面中显示的、网络文字直播和比赛相关新闻中出现的文本关键信息,如比赛比分、时间、人物和关键事件等。
高层语义分析是指利用底层特征和中层语义表征来对比赛的内容进行全面的理解,包括视频结构化、事件检测、战术分析和虚拟内容增强。视频结构化包括对视频镜头的切分以及对比赛进行、暂停和终止结构的划分。不同的体育比赛有着不同的结构, 结合领域知识可以分析和识别更具体、更有意义的结构,比如在乒乓球、网球、排球、篮球等比赛中有分、局、盘、节等语义结构。事件检测一般是指对用户感兴趣的精彩片段的检测,这些片段一般是与得分、进球等相关的动作、场景及其上下文。战术分析是指通过对运动员和球的检测与跟踪,将运动员和球的位置和轨迹投影到二维或三维比赛场地上,分析球队阵形、进攻路线、传球路线等战术与策略,进行技术统计。虚拟内容增强包括视频画面中技战术分析图形标记的插入、关键镜头全景视频的生成等。