[发明专利]基于记忆和注意力模型的听觉选择方法和装置有效
申请号: | 201711127669.7 | 申请日: | 2017-11-15 |
公开(公告)号: | CN108109619B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 许家铭;石晶;徐波 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L19/00;G10L21/0208;G10L21/0272;G10L25/30 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 记忆 注意力 模型 听觉 选择 方法 装置 | ||
本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。
技术领域
本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。
背景技术
近年来,电子设备和人工智能飞速发展,人机语音交互作为人工智能领域重要的组成部分,其重要性日益凸显,人机语音交互在现实生活中得到广泛的应用。人机语音交互是机器识别并分析提取语音信号语义特征信息,与标准信息库中语义特征相对比,输出相应文字或转化为我们想要的输出结果。但在实际应用中,现实环境存在大量的干扰,机器识别并分析提取语音信号语义特征信息这一过程无法令人满意。自从“鸡尾酒会问题”被提出后,语音分离技术作为人机语音交互的一个重要方法。
现有的语音分离技术采用监督学习的方法,但是现实环境中说话人混叠数目不确定以及监督学习方法的监督标签的排列不确定等因素,导致现有技术在实际应用场景中应用效果差,可靠性不高。此外,现有的监督学习的方法中记忆单元的维度固定,导致难以对未登录的说话人,或者较少出现的说话人的声纹信息进行有效地存储,也就无法做到准确的语音分离。
因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题,本发明的一方面提供了一种基于记忆和注意力模型的听觉选择方法,包括:
将原始语音信号编码为包含时间-频率维度的矩阵;
对所述矩阵进行编码和变换,将其转化为语音向量;
利用长时记忆单元存储说话人以及与其对应的语音向量;
从所述长时记忆单元中获取目标说话人对应的语音向量,根据所述目标说话人对应的语音向量,通过注意力选择模型从所述原始语音信号中分离出目标语音。
在上述方法的优选技术方案中,所述“将原始语音信号编码为包含时间-频率维度的矩阵”之前,该方法还包括:
对所述原始语音信号进行重采样,并对重采样后的语音信号进行滤波操作以便降低所述原始语音信号的采样率。
在上述方法的优选技术方案中,所述“对所述矩阵进行编码和变换,将其转化为语音向量”,其方法为:
利用双向长短时记忆网络模型BiLSTM分别从顺序和逆序两个方向对所述矩阵进行编码,分别得到第一隐层向量和第二隐层向量;
将所述第一隐层向量和与其对应时刻的所述第二隐层向量进行融合,得到第三隐层向量;
将所述第三隐层向量通过全连接层转化为语音向量;
其中,矩阵按顺序编号排列的时刻与矩阵按逆序排列相同编号的时刻互为对应时刻。
在上述方法的优选技术方案中,利用BiLSTM对所述矩阵进行编码得到隐层向量,其公式为:
其中,i、f、c、o、h分别表示BiLSTM的输入门、遗忘门、存储单元、输出门以及隐层向量,σ表示Sigmoid函数,x表示输入量,t表示时刻;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711127669.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法、系统以及终端设备
- 下一篇:一种机器人智能交互方法及系统