[发明专利]一种基于多类谱图特征注意力融合网络的说话人识别方法有效

申请号：	202110887726.1	申请日：	2021-08-03
公开（公告）号：	CN114038469B	公开（公告）日：	2023-06-20
发明（设计）人：	贾勇;焦旭;张葛祥;杨强;姚光乐;方祖林;罗标;汤刚;何瑶	申请（专利权）人：	成都理工大学;成都图灵志杨信息科技有限责任公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/18
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	王红霞
地址：	610000 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法，采用改进的34层残差网络和3DCNN残差网络作为识别模型，将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图，利用34层残差网络提取三种谱图的空间特征，接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征，并在上述网络模型后端引入通道注意力机制，使得网络自主学习如何生成最佳特征向量，接着将四个模型生成的特征向量进行融合，最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较，以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷，从而有效的提升了说话人识别的准确率。
搜索关键词：	一种基于多类谱图特征注意力融合网络说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都图灵志杨信息科技有限责任公司，未经成都理工大学;成都图灵志杨信息科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110887726.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多类谱图特征注意力融合网络的说话人识别方法有效

专利文献下载