[发明专利]一种语音识别方法及装置在审
申请号: | 201310717335.0 | 申请日: | 2013-12-23 |
公开(公告)号: | CN103714812A | 公开(公告)日: | 2014-04-09 |
发明(设计)人: | 苏丹 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/07 | 分类号: | G10L15/07;G10L15/26 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
1.一种语音识别方法,其特征在于,包括:
获取语音数据;
根据所述语音数据的属性信息自动确定所述语音数据的类型;
选择与所述语音数据的类型相匹配的声学模型进行语音识别。
2.如权利要求1所述的语音识别方法,其特征在于,所述获取语音数据,包括:
开启语音采集功能,对采集到的数据进行端点检测;
在检测到初始端点后,将采集到的数据作为语音数据。
3.如权利要求1所述的语音识别方法,其特征在于,所述根据所述语音数据的属性信息自动确定所述语音数据的类型,包括:
提取所述语音数据的基频分量;
根据所述基频分量确定所述语音数据的类型。
4.如权利要求3所述的语音识别方法,其特征在于,所述提取所述语音数据的基频分量包括:
将所述语音数据按预定时间长度分包,以形成至少一个语音数据包;
从全部或设定数量的所述语音数据包中提取语音数据的基频分量。
5.如权利要求4所述的语音识别方法,其特征在于,所述从全部或设定数量的所述语音数据包中提取语音数据的基频分量,包括:
选择全部或设定数量的语音数据包;
对选择的每个语音数据包分别进行分帧;
确定所述语音数据包中各帧语音数据的基频分量;
根据所述语音数据包分帧的帧数及各帧语音数据的基频分量,确定所述数据包中语音数据的基频分量;
根据各语音数据包确定的基频分量确定所述语音数据的基频分量。
6.如权利要求5所述的语音识别方法,其特征在于,所述设定数量为第一个或前N个。
7.如权利要求4所述的语音识别方法,其特征在于,所述预定时间长度为500ms。
8.如权利要求3所述的语音识别方法,其特征在于,所述根据所述基频分量确定所述语音数据包中语音数据的类型,包括:
确定所述基频分量所属的基频分量范围;
根据所述基频分量范围所对应的语音类型,确定语音数据的类型。
9.如权利要求8所述的语音识别方法,其特征在于,所述基频分量范围包括:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围,基频分量在300Hz-400Hz之间的第三范围。
10.如权利要求1所述的语音识别方法,其特征在于,所述语音数据类型包括:男性语音数据、女性语音数据和儿童语音数据;以及与所述语音数据类型相匹配的声学模型包括:男性声学模型、女性声学模型和儿童声学模型。
11.一种语音识别装置,其特征在于,包括:
获取模块,用于获取语音数据;
确定模块,用于根据所述语音数据的属性信息自动确定所述语音数据的类型;
选择模块,用于选择与所述语音数据的类型相匹配的声学模型进行语音识别。
12.如权利要求11所述的语音识别装置,其特征在于,所述获取模块包括:
端点检测子模块,用于开启语音采集功能,对采集到的数据进行端点检测;
语音采集子模块,用于在检测到初始端点后,将采集到的数据作为语音数据。
13.如权利要求11所述的语音识别装置,其特征在于,所述确定模块包括:
基频提取子模块,用于提取所述语音数据的基频分量;
类型确定子模块,用于根据所述基频分量确定所述语音数据的类型。
14.如权利要求13所述的语音识别装置,其特征在于,所述基频提取子模块包括:
形成数据包单元,用于将所述语音数据按预定时间长度分包,以形成至少一个语音数据包;
提取单元,用于从全部或设定数量的所述语音数据包中提取语音数据的基频分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310717335.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冰箱
- 下一篇:一种蓄冷装置及具有该蓄冷装置的抽屉门冰箱