首页 . 工学 . 信息与通信工程 . 模式识别 . 语音识别

语音识别

/speech recognition/
条目作者李雅

李雅

最后更新 2023-08-16
浏览 477
最后更新 2023-08-16
浏览 477
0 意见反馈 条目引用

将人类的语音信号转换为计算机可读的对应字符序列输出的技术。

英文名称
speech recognition
所属学科
信息与通信工程

作为一门综合学科,以语音为研究对象,是语音信号处理的一个重要研究方向,它是模式识别的一个分支,涉及生理学、心理学、语言学、计算机科学和声学信号处理等多个学科领域。根据识别对象的不同,语音识别任务大体可分为3类:孤立词识别、关键词识别(或称关键词检出)和大词汇量连续语音识别。根据发音人的不同可以把语音识别技术分为特定人语音识别和非特定人语音识别。

主流的语音识别理论主要是基于统计模式识别原理。基于统计模型的连续语音识别,其任务是根据给定的一段语音序列,找出这段语音所代表的最有可能的词序列。大词汇量非特定人连续语音识别系统的研究主要集中在声学模型、语言模型和解码搜索这几方面。声学建模是对声音信号(语音特征)的特性进行统计分布建模,以便于计算由词序列产生声学特征矢量序列的概率。语言模型是对语言中的词语搭配关系进行归纳,抽象成概率模型,在语音识别的过程中作为声学模型的约束,提高识别率,减少解码搜索的范围。语言模型可以分为基于规则的语言模型和基于统计的语言模型。连续语音识别中的搜索是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对声学模型和语言模型所构成的解码网络进行打分。

以隐马尔可夫模型和统计语言模型为基础的语音识别技术,在20世纪末和21世纪初获得了长足进展和应用。随着深度学习方法的不断深入,以深度神经网络、递归神经网络和加权有限状态自动转换器为核心的语音识别技术获得了进一步的发展。21世纪20年代初,基于深度神经网络的端到端语音识别技术也得到了学术界和产业界的广泛关注和应用。但是,针对诸如电话交谈语音,以及多方会议等复杂环境下的语音识别效果仍有很多难点问题亟待解决。一个主要困难在于语音信号的复杂性和多变性。一段简单的语音信号,除了话语本身,也包含了说话人、发音内容、信道特征、口音方言和情感态度等大量信息。实际多样化场景的背景噪声、信道噪声、房间混响和声音拾取设备回声等,也是导致语音识别鲁棒性不高的原因之一。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!