展开全部 +
首页 . 理学 . 计算机科学技术 . 计算机应用 . 多媒体计算 . 模式识别 . 模式识别应用

语音识别

/speech recognition;voice recognition/
条目作者刘斌

刘斌

最后更新 2024-12-13
浏览 668
最后更新 2024-12-13
浏览 668
0 意见反馈 条目引用

将语音自动转换为文字的过程。即让机器通过识别和理解,将人的语音信号转换为相应的文本或命令的过程。

英文名称
speech recognition;voice recognition
所属学科
计算机科学技术

在实际应用中,语音识别通常与自然语言理解、自然语言生成及语音合成等技术相结合,提供一个基于语音的自然流畅的人机交互系统。语音识别系统主要包括4个部分:特征提取、声学模型、语言模型和解码搜索。

①特征提取。语音特征抽取是在原始语音信号中提取出与语音识别最相关的信息,滤除其他无关信息。比较常用的声学特征有三种:梅尔频率倒谱系数、梅尔标度滤波器组特征和感知线性预测倒谱系数。梅尔频率倒谱系数特征是指根据人耳听觉特性计算梅尔频谱域的倒谱系数获得的参数。梅尔标度滤波器组特征与梅尔频率倒谱系数特征不同,它保留了特征维度间的相关性。感知线性预测倒谱系数在提取的过程中利用人的听觉机理对人声建模。

②声学模型。声学模型承载着声学特征与建模单元之间的映射关系。在训练声学模型之前需要选取建模单元,建模单元可以是音素、音节、词语等,其单元粒度依次增加。若采用词语作为建模单元,每个词语的长度将不等,从而导致声学建模缺少灵活性。此外,由于词语的粒度较大,很难充分训练基于词语的模型,因此一般不采用词语作为建模单元。然而,词语中包含的音素是确定且有限的,利用大量的训练数据可以充分训练基于音素的模型。因此,目前大多数声学模型一般采用音素作为建模单元。比较经典的声学模型是混合声学模型,大致可以概括为两种:基于高斯混合模型-隐马尔科夫模型的模型和基于深度神经网络-隐马尔科夫模型的模型。

③语言模型。语言模型是根据语言客观事实而进行的语言抽象数学建模。语言模型亦是一个概率分布模型P,用于计算任何句子S的概率。在语音识别系统中,语言模型所起的作用是在解码过程中从语言层面上限制搜索路径。常用的语言模型有N元文法语言模型和循环神经网络语言模型,尽管循环神经网络语言模型的性能优于N元文法语言模型,但是循环神经网络语言模型训练比较耗时,且解码的时候识别速度较慢。因此,目前工业界仍然采用基于N元文法的语言模型。

④解码搜索。解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径。在解码的时候需要用到声学得分和语言得分,声学得分由声学模型计算得到,语言得分由语言模型计算得到。其中,每处理一帧特征都会用到声学得分,但是语言得分只有在解码到词级别才会涉及,一个词一般覆盖多帧语音特征。故此,解码时声学得分和语言得分存在较大的数值差异。为了避免这种差异,解码时候引入一个参数对语言得分进行平滑,从而使得两种得分具有相同的尺度。构建解码空间的方法可以概括为两类:静态的解码和动态的解码。静态的解码需要预先将整个静态网络加载到内存中,因此需要占用较大的内存。动态的解码是指在解码过程中动态的构建和销毁解码网络,这种构建搜索空间的方式能减小网络所占的内存,但是基于动态的解码速度比静态的慢。通常在实际应用中,需要权衡解码速度和解码空间来选择构建解码空间的方法。

  • 俞栋,邓力.解析深度学习:语音识别实践.北京:电子工业出版社,2016.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!