[发明专利]基于记忆和注意力模型的听觉选择方法和装置有效
申请号: | 201711127669.7 | 申请日: | 2017-11-15 |
公开(公告)号: | CN108109619B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 许家铭;石晶;徐波 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L19/00;G10L21/0208;G10L21/0272;G10L25/30 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。 | ||
搜索关键词: | 基于 记忆 注意力 模型 听觉 选择 方法 装置 | ||
【主权项】:
1.一种基于记忆和注意力模型的听觉选择方法,其特征在于,所述方法包括:将原始语音信号编码为包含时间-频率维度的矩阵;对所述矩阵进行编码和变换,将其转化为语音向量;利用长时记忆单元存储说话人以及与其对应的语音向量;从所述长时记忆单元中获取目标说话人对应的语音向量,根据所述目标说话人对应的语音向量,通过注意力选择模型从所述原始语音信号中分离出目标语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711127669.7/,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法、系统以及终端设备
- 下一篇:一种机器人智能交互方法及系统