[发明专利]回声消除方法、装置、电子设备和可读存储介质有效
申请号: | 202110272697.8 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112687288B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 马路;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/27 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100872 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回声 消除 方法 装置 电子设备 可读 存储 介质 | ||
1.一种回声消除方法,其特征在于,包括:
获取待处理混合语音信号和待处理远端语音信号;
将所述待处理混合语音信号输入预先训练的第一网络模型,以提取所述待处理混合语音信号的第一特征,以及,将所述待处理远端语音信号输入预先训练的第二网络模型,以提取所述待处理远端语音信号的第二特征;
将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型,以获得第三特征,所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息,其中,所述多头注意力层用于将所述待处理混合语音信号的第一特征与所述待处理远端语音信号的第二特征进行比对得到信息权重;
根据所述第一特征和所述第三特征,获得所述待处理混合语音信号消除回声后的近端语音信号。
2.根据权利要求1所述的回声消除方法,其特征在于,所述第一网络模型和所述第二网络模型均为卷积网络模型。
3.根据权利要求1所述的回声消除方法,其特征在于,所述回声估计网络模型基于所述第一特征生成所述多头注意力层所对应的查询向量,基于所述第二特征生成所述多头注意力层所对应的键向量和所述多头注意力层所对应的值向量。
4.根据权利要求1所述的回声消除方法,其特征在于,所述回声估计网络模型包括长短时记忆网络层,其中,所述多头注意力层的输入端用于输入所述第一特征和所述第二特征,所述长短时记忆网络层的输入端用于输入所述第一特征和所述多头注意力层输出的特征。
5.根据权利要求1所述的回声消除方法,其特征在于,所述多头注意力层至少包括用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层。
6.根据权利要求1所述的回声消除方法,其特征在于,所述根据所述第一特征和所述第三特征,获得消除回声后的近端语音信号,包括:
将所述第一特征和所述第三特征输入预先训练的掩膜估计模型,以获得所述待处理混合语音的每个时频点的掩膜值;
根据所述掩膜值和所述待处理混合语音的每个时频点的值,获得消除回声后的近端语音信号。
7.根据权利要求6所述的回声消除方法,其特征在于,所述获取待处理混合语音信号和待处理远端语音信号之前,还包括:训练模型的步骤;
所述训练模型的步骤包括:
获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值,所述待训练掩膜值为根据所述待训练混合语音时频域信号和待训练远端语音时频域信号所确定的掩膜值;
以所述待训练混合语音时频域信号和待训练远端语音时频域信号作为联合模型的输入,以所述待训练掩膜值作为所述联合模型的输出,训练所述联合模型,其中,所述联合模型包括所述第一网络模型、所述第二网络模型、所述回声估计网络模型和所述掩膜估计模型。
8.根据权利要求7所述的回声消除方法,其特征在于,所述获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值,包括:
获取待训练近端语音信号和待训练远端语音信号;
根据所述待训练远端语音信号模拟得到待训练回声信号;
叠加所述待训练回声信号和待训练近端语音信号得到待训练混合语音信号;
将所述待训练混合语音信号转化为待训练混合语音时频域信号,将所述待训练近端语音信号转化为待训练近端语音时频域信号;
计算所述每个时频点的所述待训练近端语音时频域信号在所述待训练混合语音时频域信号中的能量占比,作为待训练掩膜值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272697.8/1.html,转载请声明来源钻瓜专利网。