[发明专利]一种应用于智能语音鼠标的音频块处理方法在审
申请号: | 201710947337.7 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107749298A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 冯海洪;朱国冉;许成亮 | 申请(专利权)人: | 安徽咪鼠科技有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G06F3/16 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙)11390 | 代理人: | 胡剑辉 |
地址: | 230000 安徽省合肥市高新区习友路*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 智能 语音 鼠标 音频 处理 方法 | ||
技术领域
本发明属于语音识别技术领域,涉及一种音频块处理方法,具体是一种应用于智能语音鼠标的音频块处理方法。
背景技术
智能语音鼠标工作时,需要将大量的音频块上传到讯飞语音识别服务器进行语音识别工作,其中包含着无效的音频块,这对语音识别服务器和网络传输都增加了负担。
已有的是VAD检测,主要目的是检测音频有效语音的前后端点,得到端点后再进行语音识别,VAD检测只检测语音的端点,音频在网络传输上没有减少负担,还有语音端点检测超过几秒静音后,就自动结束识别,严重影响了语音识别的效率和效果。
发明内容
本发明的目的在于提供一种应用于智能语音鼠标的音频块处理方法。
本发明的目的可以通过以下技术方案实现:
一种应用于智能语音鼠标的音频块处理方法,包括以下步骤:
步骤S1,智能语音鼠标通过其内置的高性能麦克风采集到用户说话的音频数据,并将其划分为若干音频块;
步骤S2,对智能语音鼠标采集到音频数据中的任一音频块进行分帧处理;
步骤S3,计算分帧处理后音频块每一帧的短时能量值;
步骤S4,计算分帧处理后音频块所有帧的能量和;
步骤S5,计算分帧处理后音频块一帧的平均能量值;
步骤S6,将步骤S5中计算出的平均能量值与预设阀值进行比较,判断平均能量值是否大于预设阈值,若平均能量值大于或等于预设阈值,音频块为有效音频块,执行步骤S9,若平均能量值小于预设阈值,音频块为静音音频块,执行步骤S7;
步骤S7,判断静音音频块的位置,若静音音频块前面没有有效音频块,执行步骤S10,若静音音频块前面具有有效音频块,执行步骤S8;
步骤S8,判断静音音频块与其前面的有效音频块之间包含其它静音音频块的个数,若包含其它静音音频块的个数小于或等于6个,执行步骤S9,若包含其它静音音频块的个数大于6个,执行步骤S10;
步骤S9,智能语音鼠标将音频块上传到讯飞语音识别服务器进行语音识别;
步骤S10,智能语音鼠标将音频块丢弃,不上传到讯飞语音识别服务器。
本发明的有益效果:本发明提供的音频块处理方法,通过把无效的静音音频块剔除掉,只上传有效音频块和起过渡作用的静音音频块,不但减少了网络传输负担,还减少了语音识别的负担,大大提升语音识别的效率。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种应用于智能语音鼠标的音频块处理方法,包括以下步骤:
步骤S1,智能语音鼠标通过其内置的高性能麦克风采集到用户说话的音频数据,并将其划分为若干音频块。
步骤S2,对智能语音鼠标采集到音频数据中的任一音频块进行分帧处理;对于采样率是16000HZ,16位的情况下,一帧是512B。
步骤S3,计算分帧处理后音频块每一帧的短时能量值。
步骤S4,计算分帧处理后音频块所有帧的能量和;对于大小为4096B的音频块,可以将其分为8帧,将这8帧的短时能量值相加,计算这8帧的能量和。
步骤S5,计算分帧处理后音频块一帧的平均能量值;对于大小为4096B的音频块,可以将其分为8帧,将这8帧的能量和除以8,计算其平均值。
步骤S6,将步骤S5中计算出的平均能量值与预设阀值进行比较,判断平均能量值是否大于预设阈值,若平均能量值大于或等于预设阈值,音频块为有效音频块,执行步骤S9,若平均能量值小于预设阈值,音频块为静音音频块,执行步骤S7。
步骤S7,判断静音音频块的位置,若静音音频块前面没有有效音频块,执行步骤S10,若静音音频块前面具有有效音频块,执行步骤S8。
步骤S8,判断静音音频块与其前面的有效音频块之间包含其它静音音频块的个数,若包含其它静音音频块的个数小于或等于6个,执行步骤S9,若包含其它静音音频块的个数大于6个,执行步骤S10。
步骤S9,智能语音鼠标将音频块上传到讯飞语音识别服务器进行语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽咪鼠科技有限公司,未经安徽咪鼠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710947337.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音控制智能硬件的方法
- 下一篇:一种可调节铝合金桥架