[发明专利]连续长语音识别方法及系统、硬件设备在审
申请号: | 201610111643.2 | 申请日: | 2016-02-29 |
公开(公告)号: | CN105719642A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 黄博;张国兴 | 申请(专利权)人: | 黄博 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L25/87 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 罗韬 |
地址: | 621000 四川省绵阳*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 连续 语音 识别 方法 系统 硬件 设备 | ||
1.一种连续长语音识别方法,其特征在于包括步骤:
A、初始化缓冲区,设置分帧时间长度、停顿时间阈值;
B、将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
C、按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
D、对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的语音信号保存在各个切片中,并在各个切片中追加一段静音帧;
E、分别对各个切片进行识别。
2.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤B具体包括:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
3.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤C根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
4.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤A中的停顿时间阈值为100~150ms。
5.根据权利要求1或4所述的连续长语音识别方法,其特征在于所述步骤D中追加的静音帧的长度为30~50ms。
6.一种连续长语音识别系统,其特征在于包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块,
所述初始化模块被配置成:初始化缓冲区,设置分帧时间长度、停顿时间阈值;
所述降噪模块被配置成:将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
所述分帧模块被配置成:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
所述切片模块被配置成:对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的信号顺序保存在各个切片中,并在各个切片中追加一段静音帧;
所述分片识别模块被配置成:分别对各个切片进行识别。
7.根据权利要求6所述的连续长语音识别系统,其特征在于所述降噪模块具体被配置成:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
8.根据权利要求6所述的连续长语音识别系统,其特征在于所述分帧模块根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
9.根据权利要求6所述的连续长语音识别系统,其特征在于所述初始化模块预设的停顿时间阈值为100~150ms,所述切片模块追加的静音帧的长度为30~50ms。
10.一种硬件设备,其特征在于:所述硬件设备被配置成安装有权利要求6~9中任一所述的系统以对连续长语音进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄博,未经黄博许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610111643.2/1.html,转载请声明来源钻瓜专利网。