[发明专利]一种语音增强交互方法及系统、存储介质及电子设备有效
申请号: | 201710338190.1 | 申请日: | 2017-05-15 |
公开(公告)号: | CN108877827B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 金剑;张益萍 | 申请(专利权)人: | 福州瑞芯微电子股份有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0224;G10L21/0232;G10L15/22 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 350003 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 增强 交互 方法 系统 存储 介质 电子设备 | ||
本发明提供一种语音增强交互方法及系统、存储介质及电子设备,将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号,并进行混响抑制和平稳噪声抑制;基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向。本发明的语音增强交互方法及系统、存储介质及电子设备有效地提高了语音交互的稳定性和可靠性。
技术领域
本发明涉及语音处理的技术领域,特别是涉及一种语音增强交互方法及系统、存储介质及电子设备。
背景技术
随着信息科技的发展,人工智能技术越来越走进人们的生活当中。而在众多的人机交互中,语音交互是一种最自然且最符合人类行为的一种交互方式。语音识别技术的不断发展,也使得语音交互成为现实。在使用过程中,通常使用特定唤醒词触发语音交互系统。然而,在实际生活场景中,语音交互环境较为复杂,容易受到环境噪声、混响、人声干扰等影响,使得麦克风采集的语音信号信噪比较差,严重影响了语音交互的准确性。
现有技术中,采用各种语音增强方法来提高语音信噪比,其中包括单麦克风语音增强技术和麦克风阵列语音增强技术。单麦克风语音增强技术为比较传统的语音增强技术,包括谱减法、维纳滤波法等方法。麦克风阵列语音增强相比单麦克风语音增强技术,引入了声源信号的空间信息。现有语音增强麦克风阵列通常采用均匀线形阵列,并使用自适应波束形成语音增强方法,例如广义旁瓣相消器(GSC),同时还需要声源定位功能来确定目标声源位置,以使得波束方向指向目标声源方向。现有声源定位方法通常采用时延估计方法,例如利用广义互相关方法(GCC)。
单麦克风语音增强技术算法复杂度小,但对非平稳噪声的抑制效果较差,且容易造成语音不同程度的失真。线形麦克风阵列语音增强方法由于其布局的局限性,对阵列法线方向的拾音效果较好,但对轴向拾音效果较差;同时,自适应波束形成虽然对噪声具有实时的跟踪性,但在噪声环境复杂且混响较大时,声源定位准确度难以保证,同时零陷方向的自适应跟踪准确度也难以保证,从而造成语音不同程度的失真。为了避免复杂环境下自适应波束的效果恶化,通常需要设计复杂的自适应算法以及复杂的声源定位方法,难以满足嵌入式系统的实时性应用需求。一般情况下,声源定位方法与自适应波束方法通常采用不同的设计方法,如GCC与GSC方法,两者几乎没有复用模块,从而造成更大的复杂度。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种语音增强交互方法及系统、存储介质及电子设备,在进行语音识别时,生成主方向和唤醒方向两路波束信号,并当干扰方向声源为唤醒词时将正在进行语音识别的主方向切换为唤醒方向,从而有效地提高了语音交互的稳定性和可靠性。
为实现上述目的及其他相关目的,本发明提供一种基于环形麦克风阵列的语音增强交互方法,包括以下步骤:将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号;在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号;基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;所述主方向为当前正在拾音的目标方向;对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向对应的主方向波束时域信号进行语音识别。
于本发明一实施例中,对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l),其中i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数,M为麦克风的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州瑞芯微电子股份有限公司,未经福州瑞芯微电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710338190.1/2.html,转载请声明来源钻瓜专利网。