[发明专利]一种红外触发的远场双麦远场语音识别方法有效
申请号: | 201910289037.3 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110012331B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 杨洋;姚嘉;高永泽;任金平 | 申请(专利权)人: | 杭州微纳科技股份有限公司 |
主分类号: | H04N21/422 | 分类号: | H04N21/422;G10L25/45;G10L21/0216;G10L21/0208;G10L15/26;G10L15/22 |
代理公司: | 北京云科知识产权代理事务所(特殊普通合伙) 11483 | 代理人: | 张飙 |
地址: | 310013 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 红外 触发 远场双麦远场 语音 识别 方法 | ||
1.一种红外触发的远场双麦远场语音识别方法,其特征在于:该方法的具体为:
1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;
2)使用电视遥控器的红外语音按键,控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;
3)对T1和T2进行延迟相加和延迟相减,获得主信号增强T_ADD和参考噪声T_SUB的时域语音数据;
4)对主信号增强T_ADD和参考噪声T_SUB的时域语音数据采用递归拼接方法进行噪声估计,获得主信号和参考噪声能量的比值OMEGA;
5)当主信号和参考噪声能量比小于OMEGAlow时,干扰噪声强,语音不存在;当主信号参考噪声能量比大于OMEGAhigh时,主信号强,语音存在;
6)当检测到语音存在,采用增益函数对前置麦克风的频域语音数据进行增益调整,获得降噪后的主信号麦克风的频域语音数据;并最终输出降噪后的时域语音数据;
所述步骤3)进一步包括:
1)分别对所述主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域语音数据F1和F2;进而获得频域信号能量F1_2和F2_2,由此获得两路频域语音数据;
2)对两路频域语音数据进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;
3)计算两颗麦克风拾音装置的信号平均能量值X1和X2,然后和稳态噪声估计值进行比较,计算信号噪声能量和参考噪声能量的比值OMEGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q;
4)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域语音数据F_OPT;之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。
2.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤2)中,两颗麦克风分别获取时域语音数据,采样率为16000hz,并分每帧128个语音数据进行处理;输出所述时域语音数据为T1和T2。
3.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:在所述步骤3)中,延迟相加T_ADD和延迟相减信号T_SUB的计算公式为:
T_ADD=T1+T2
T_SUB=T1-T2。
4.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤1)中,输入的是时域语音数据T_ADD和T_SUB,输出是频域语音数据F1、F2和频域信号能量F1_2,F2_2,公式为:
F1=fft(HanningWindow*T_ADD)
F2=fft(HanningWindow*T_SUB)
F1_2=|F1|2
F2_2=|F2|2
HanningWindow指的是汉宁窗函数。
5.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤2)中,语音噪声估计的方式是采用滑动最小递归平均MCRA算法对语音的稳态噪声进行估计,具体的实现方式计算频域信号的平方作为信号能量值,公式为:
其中,alpha是平滑系数、N1last是1通道上一帧的噪声能量、THRSIGNAL是噪声能量判断阈值、N2last是2通道上一帧的噪声能量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州微纳科技股份有限公司,未经杭州微纳科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910289037.3/1.html,转载请声明来源钻瓜专利网。