[发明专利]语音命令识别方法和系统有效
申请号: | 201310035979.1 | 申请日: | 2013-01-30 |
公开(公告)号: | CN103971685A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 岳帅;卢鲤;张翔;谢达东;刘海波;陈波;刘荐 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/28 | 分类号: | G10L15/28;G10L15/06 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张晓峰;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 命令 识别 方法 系统 | ||
技术领域
本申请涉及自动语音识别(ASR,Automatic Speech Recognition)技术领域,尤其涉及一种语音命令识别方法和系统。
背景技术
自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括模型训练、解码网络构建、以及解码等过程。
语音命令识别技术是自动语音识别技术的一项具体应用,其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备,只要说出命令词的语音,则语音命令识别系统会自动识别出该语音对应的字符串,如果该字符串为命令词对应的字符串,则触发对应的操作。
例如目前的语音唤醒系统就是一种典型的语音命令识别系统,用户可以说出唤醒命令,系统识别用户说出的语音,如果识别出是唤醒命令则唤醒(即启动)对应的设备,否则不唤醒对应的设备。
语音命令识别系统的评测标准通常包括误识率和拒认率两个部分。误识率指用户未发出语音命令,但系统却错误的触发了该命令对应的操作。拒认率指用户发出了语音命令,但系统却没有反应,即没有触发该命令对应的操作。误识率和拒认率越低,证明语音命令识别系统越稳定。
但是现有的语音识别系统的误识率很高,尤其是在嘈杂的环境下,误识率会进一步提高。
发明内容
有鉴于此,本发明的主要目的在于提供一种语音命令识别方法和系统,以降低语音命令识别的误识率。
本发明的技术方案是这样实现的:
一种语音命令识别方法,包括:
对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
一种语音命令识别系统,包括:
背景声学模型训练模块,用于对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
前景声学模型训练模块,用于对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
解码网络构建模块,用于依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
解码器,用于依据所述解码网络对输入的语音进行解码;
判断模块,用于在语音结束后判断解码器的解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
与现有技术相比,本发明训练了两个精度不同的声学模型,背景声学模型的精度要远低于前景声学模型,在构建解码网络时,对于命令词对应解码路径的构建,只从高精度的前景声学模型中选择该命令词包含的音素,构建命令词对应的高精度的解码路径,这样会提高对命令词语音的识别精度;同时,对于其它的非命令词的解码路径的构建,则依据所述精度远低于前景声学模型的背景声学模型构建其它语音的解码路径,这样当语音不是命令词时,可以将这些非命令词的语音解码引入这些低精度的解码路径上来,起到了“吸附”非命令词语音的作用,因此可以大大降低语音命令识别的误识率。同时,在低精度的解码路径上进行解码的计算量较小,因此本发明非常适合便携数据处理平台、嵌入式系统等计算能力较低的设备。
附图说明
图1为本发明所述语音命令识别方法的一种流程图;
图2为本发明一种实施例中依据前景声学模型和背景声学模型构建的一种解码网络的示意图;
图3为本发明增加语音活动检测过程的一种实施例的流程图;
图4为通过语音活动检测进行语音命令识别的一种具体流程示意图;
图5为本发明所述的语音命令识别系统的一种组成示意图;
图6为本发明所述的语音命令识别系统的又一种组成示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明
图1为本发明所述语音命令识别方法的一种流程图。参见图1,该方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310035979.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种采用银参比电极的小型块状氧电极
- 下一篇:一种智能酒精测试仪