[发明专利]一种语音增强交互方法及系统、存储介质及电子设备有效

申请号：	201710338190.1	申请日：	2017-05-15
公开（公告）号：	CN108877827B	公开（公告）日：	2021-04-20
发明（设计）人：	金剑;张益萍	申请（专利权）人：	福州瑞芯微电子股份有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0224;G10L21/0232;G10L15/22
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	徐秋平
地址：	350003 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音增强交互方法系统存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于环形麦克风阵列的语音增强交互方法，其特征在于：包括以下步骤：

将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；

在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；

基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；

在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；

对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别；

对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k,l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数；

获取所述唤醒方向包括以下步骤：

设定扫描方向θ_j及扫描频段[Kl,Kh]，其中Sn为扫描个数；

基于去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)，在各个扫描方向θ_j的扫描频段上进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值其中为扫描方向θ_j对应的超增益固定波束滤波器；

计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和其中L为一定时间片T所对应的帧数，L＝floor(T×Fs/N)，N为帧长，Fs为麦克风信号的采样率，floor()表示向下取整运算；

搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θ_j,l)中前三个能量大值对应的扫描方向；其中θ_m1、θ_m2和θ_m3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向；

对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W。

2.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对所述各个麦克风的频域信号X_i(k,l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益G_i(k,l)，最后根据X′_i(k,l)＝X_i(k,l)×G_i(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)。

3.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W包括以下步骤：

根据对θ_m1和θ_m2进行平滑操作，得到θ₁₂，其中θ_Δ为预设最大误差角；

根据对θ₁₂和θ_m3进行平滑操作，得到唤醒方向θ_W，其中α为预设平滑系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州瑞芯微电子股份有限公司，未经福州瑞芯微电子股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710338190.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多窗谱的语音减噪方法
下一篇：语音增强方法/系统、计算机可读存储介质及电子设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音增强交互方法及系统、存储介质及电子设备有效

专利文献下载