[发明专利]语音识别方法、装置及电子设备有效
申请号: | 201310177246.1 | 申请日: | 2013-05-14 |
公开(公告)号: | CN104157285A | 公开(公告)日: | 2014-11-19 |
发明(设计)人: | 李露;卢鲤;张翔;饶丰;岳帅;陈波;马建雄;刘海波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 滕一斌 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 | ||
技术领域
本发明涉及音视频处理领域,特别涉及一种语音识别方法、装置及电子设备。
背景技术
语音识别是将语音信号识别为对应的文字序列的一种技术,广泛应用于人机交互、音视频检索等等领域。
现有的语音识别方法大多以词语或者句子作为基本识别单位,大概包括如下步骤:第一,首先提取语音信号中的音频特征;第二,通过维特比解码计算该音频特征在预设的解码搜索网络中的最优文字序列,并将该最优文字序列作为识别结果。具体来讲,该预设的解码搜索网络中通常包括声学模型、词典和语言模型,声学模型通常为基于单音素或者三音素的隐马尔可夫模型,词典包括词语与音素之间的对应关系,语言模型则包括词语与词语之间组合成文字序列时的概率关系。在音频特征输入解码搜索网络后,通过声学模型可以识别出与该音频特征对应的音素序列,通过该音素序列又可以在词典中查询出若干个候选词语,最后通过语言模型中的概率关系选择出具有最大概率的几个候选词语所构成的顺序组合作为最优文本序列。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于上述解码搜索网络是由词语直接参与构造的,一旦词表(也即所有可识别词语的集合)发生变化,就需要重新构造解码搜索空间,整个技术方案的灵活性较低。
发明内容
为了解决现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题,本发明实施例提供了一种语音识别方法、装置及电子设备。所述技术方案如下:
第一方面,提供了一种语音识别方法,所述方法包括:
从获取到的语音信号中提取音频特征;
根据所述音频特征识别出音节混淆网络;
根据所述音节混淆网络和预设的标音词表生成词语网格;
在所述词语网格中计算最优文字序列作为识别结果。
第二方面,提供了一种语音识别装置,所述装置包括:
特征提取模块,用于从获取到的语音信号中提取音频特征;
音节识别模块,用于根据所述音频特征识别出音节混淆网络;
网格生成模块,用于根据所述音节混淆网络和预设的标音词表生成词语网格;
文字识别模块,用于在所述词语网格中计算最优文字序列作为识别结果。
第三方面,提供了一种电子设备,所述终端包括如第二方面所述的语音识别装置。
本发明实施例提供的技术方案带来的有益效果是:
通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语音识别方法的方法流程图;
图2A是本发明实施例二提供的语音识别方法的方法流程图;
图2B是本发明实施例二所涉及的音节混淆网络的结构示意图;
图2C是本发明实施例二所涉及的生成词语网格过程的方法流程图;
图2D是本发明实施例二所涉及的词语网格的结构示意图;
图2E是本发明实施例二所涉及的在词语网格中计算最优文字序列过程的方法流程图;
图3是本发明实施例三提供的语音识别装置的结构示意图;
图4是本发明实施例四提供的语音识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例涉及的若干术语如下:
音素:根据语音的自然属性划分出的最小语音单位,比如在汉语中,声母y、l、k之类的均为一个音素,韵母i、o、e之类的也均为一个音素。在汉语中,拥有35个音素。
音节:由一个或者几个音素按照一定规则组合成的语音单位,汉语音节以韵母为中心,由声母、韵母和声调三部分组成;英语音节则以元音音素为中心,配合一个或多个辅音音素组成。汉语通常包括22个声母与38个韵母,400多个无调音节和1300个左右的有调音节。比如,“yu”、“xiao”等即为无调音节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310177246.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蓝牙耳机语音识别方法
- 下一篇:一种五指组合控制的新型电子乐器