语音识别技术涉及人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科,是一个多学科交叉的研究领域。
语音识别系统(speech recognition system)指具有语音识别功能的开发工具、软件、装置或应用等,可以根据产品用途、词汇量、能识别的说话人群、工作模式等分类。基于产品用途,可以分为文字输入类、声音检测识别类和对话类三类产品。文字输入类是以文字录入为主要目的,要求把语音转化成文字的产品(系统);声音检测识别类,要是以检测连续或孤立语流中的特定命令或关键词为主要目的的产品(系统);对话类是采用语音方式进行信息获取为目的的产品(系统)。基于词汇量的分类由语音识别产品(系统)的词汇量按照最大激活词汇量标定。从能处理的词汇量来分类,语音识别系统分为小词汇量、中小词汇量、中词汇量、中大词汇量、大词汇量、超大词汇量等六种。基于能识别的说话人群的分类,可以分为特定人、特定人群和非特定人识别三种。基于系统工作模式的分类,可以分为孤立字识别、连接词识别、书面语受限语音识别、口语受限语音识别、书面语不受限语音识别、口语不受限语音识别及关键词检测等七种。
语音识别问题可以抽象地表示为一个最优化问题。数学原理是在给定的观测特征矢量O的情况下,求解最有此序列
,得到的条件概率p(W|O)最大化,涉及声学模型和语言模型两部分。根据贝叶斯公式,语音识别问题可以表示为:

式中概率p(W|O)为观测矢量O对给词序列W的似然度,是声学模型部分;概率p(W)为此序列出现的先验概率,是语言学模型部分。
图1和图2为语音识别系统的原理框架。特征提取模块对原始语音进行预处理和特征提取。前端预处理包括端点检测和语音增强等,之后提取声学特征。常用的特征有线性预测编码系数LPC、倒谱系数CEP、fbank,还有更加符合人耳听觉感知的梅尔倒谱系数MFCC和感知线性预测PLP等。这些特征的一阶、二阶差分,也常被用到。
在训练阶段,训练带有标注的语音信号,得到声学模型;通过大量的文本信息,得到语言模型。声学模型是最重要的模型。从20世纪80年代起,隐马尔可夫模型HMM处于主流,与高斯混合模型结合的GMM-HMM模型统领了30年,2010年以来,最为流行的是与深度神经网络结合的DNN-HMM模型。深度神经网络DNN为语音识别领域带来突破性的性能提升与技术发展,促进了音识别在移动互联网中的发展与应用。对于语言模型,多元文法模型(N-gram模型)是最好用的语言模型,基于神经网络的语言模型也逐渐取得不错的效果,例如前馈神经网络语言模型和递归神经网络语言模型等。
在识别阶段,解码器综合发音词典、声学模型和语言模型等模块的信息,对输入的语音特征进行测试打分,计算最优解码,得到识别文本。
图1 语音识别系统的原理框架(一)
图2 语音识别系统的原理框架(二)
语音识别最早出现在20世纪的50年代。作为模式识别领域的一个重要分支,它遭遇过低谷期,但是每次技术突破带来的识别性能飞越,都会在工业界和学术界引发潮流。经过半个多世纪的努力,语音识别逐渐从简单走向成熟,从试验走向应用。语音识别技术的发展大致经历以下阶段。
这个阶段的研究工作主要关注语音特征提取和模板匹配技术,最重要的研究成果包括线性预测编码(LPC)技术、动态时间规整技术(DTW)、矢量量化技术(VQ)和隐马尔可夫模型(HMM)理论。当时的语音识别系统主要针对孤立词的识别。尽管通过模板匹配技术,能够实现语音识别,但这种技术同人类听觉的水平相差太远。
这个阶段,统计语音识别技术逐渐发展成熟。人们意识到,语音识别技术的复杂性与艰巨性无法通过模板匹配方法实现,于是转向数据驱动的统计学方法。隐马尔可夫模型和人工神经网络(ANN)技术的成功应用,使统计语音识别的方法发展迅速,并出现大词汇量连续语音识别系统。同时,梅尔倒谱系数(MFCC)和感知线性预测倒谱系数(PLPCC)等特征的出现,促进语音识别性能的提升。
这个阶段,语音识别技术逐渐实用化,背景噪声的不匹配和说话人差异等因素带来的影响成为研究重点。很多科研单位和研究机构投入大量的研究力量解决这些问题。美国国防高级研究计划局(DARPA)和美国国家标准局(NIST)举办语音技术评测,推动语音识别技术的发展。这一阶段,高斯混合模型(GMM)和隐马尔可夫模型组成的识别框架成为主流技术,而语音抗噪技术、模型自适应技术、声道长度归一化技术(VTLN)、全方差建模技术、区分度训练技术(Discriminative Training)和说话人自适应训练(SAT)等技术相继被提出,用来减少噪声和说话人等因素带来的性能损失。
这个阶段的标志是移动互联网的发展与深度学习技术的提出。尽管步入这个阶段时间不久,但是其发展速度超过以往任何一个阶段。在这个阶段,商业需求推动语音识别技术的发展,越来越多的移动终端和服务都配置有语音识别技术。同时,深度神经网络(DNN)技术和通用图形计算单元(GPGPU)及云技术,也促进语音识别技术的发展。基于上下文相关的深层神经网络—隐马尔可夫混合模型(CD-DNN-HMM)的语音识别框架取代GMM-HMM框架,成为语音识别技术的主流技术。这项技术把描述特征发射概率的模型,从高斯混合模型(GMM)替换为深度神经网络(DNN),使系统的错误率下降20%~30%。
相应深度神经网络的加速训练算法、模型结构、参数学习算法成为这一阶段的研究重点。GMM-HMM框架和深度置信网DBN-DNN-HMM框架下,声学模型建模没有考虑历史帧对当前帧得分的影响。多层单向长短时记忆LSTM技术是一个具有记忆功能的神经网络,它记住历史上有用的信息,忘记无用的信息,使声学模型大小比原来的DBN-DNN减少一个数量级,同时识别率还略有提升。STM只考虑以前发音对当前发音的影响,没有考虑未来发音对当前发音的影响。BLSTM是双向的LSTM,同时考虑历史和未来对当前的影响,声学建模性能更好。但是,语音识别的应用场景通常要求我们一边说话一边出字,于是BLSTM的变通版本LC-LSTM出现,以很小的延迟代价,使BLSTM成为可能。
连接时序分类(CTC)技术早在20世纪90年代已被应用。CTC技术出现后,语音解码无须先求出每帧对应的隐藏状态,动态规划最佳的音子(phone),再推算最佳的词(word)。CTC技术可以在帧和帧之间插入空白符,直到有最优的词出现,在光学字符识别(OCR)领域应用广泛,也有多家技术公司将其用于语音识别。
随着机器翻译领域端到端(Seq2Seq)技术的发展,研究人员开始将端到端模型应用于语音识别任务。与传统混合模型相比,这种技术可以采用更大的建模粒度,例如子词(word piece)、字等,并且无须GMM-HMM和决策树聚类等预处理,简化语音识别流程。LAS模型(listen, attend and spell,简称LAS)在12 500小时的英文数据集上,采用子词,超越混合模型。Transformer模型和RNA模型(recurrent neural aligner,简称RNA)在中文数据集上,可以取得与混合模型可比的性能。
混合模型方面也有进一步的发展。D.鲍维等提出的链式模型(chain model)采用时延神经网络(time delay neural network,简称TDNN)和最大互信息区分性训练(lattice-free maximum mutual information,简称LF-MMI),在多个公开数据集上取得当前最好的性能。该模型的HMM拓扑结构更简单,帧率可降低三分之一甚至更多,大幅减少解码运算时间。
经过半个多世纪,人们克服重重困难,不断改进,使语音识别技术有了今日的发展和应用。深度神经网络应用到语音识别领域之后,语音识别的性能大幅提高,促进语音识别技术的发展。得益于其优秀的建模能力,深度神经网络模型已基本取代高斯混合模型,成为主流配置。由于深度神经网络同高斯混合模型差异较大,很多基于高斯混合模型的技术不再适用。
语音识别技术与人工智能技术密切相关。如果我们区分“言语”与“语音”,把言语视为信息交互中,人们掌握和使用语言的活动,并具有个性化行为的话,言语识别就不应仅是将语音信号解码到文本的过程,还应是解码到说话人信息、语气语调信息、语境信息及文本信息等复杂言语符号信息的过程。