[发明专利]一种基于多类谱图特征注意力融合网络的说话人识别方法有效

专利信息
申请号: 202110887726.1 申请日: 2021-08-03
公开(公告)号: CN114038469B 公开(公告)日: 2023-06-20
发明(设计)人: 贾勇;焦旭;张葛祥;杨强;姚光乐;方祖林;罗标;汤刚;何瑶 申请(专利权)人: 成都理工大学;成都图灵志杨信息科技有限责任公司
主分类号: G10L17/02 分类号: G10L17/02;G10L17/18
代理公司: 北京元本知识产权代理事务所(普通合伙) 11308 代理人: 王红霞
地址: 610000 *** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多类谱图 特征 注意力 融合 网络 说话 识别 方法
【说明书】:

发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法,采用改进的34层残差网络和3DCNN残差网络作为识别模型,将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图,利用34层残差网络提取三种谱图的空间特征,接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征,并在上述网络模型后端引入通道注意力机制,使得网络自主学习如何生成最佳特征向量,接着将四个模型生成的特征向量进行融合,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷,从而有效的提升了说话人识别的准确率。

技术领域

本发明涉及声纹识别领域,具体的说,涉及一种基于多类谱图特征注意力融合网络的说话人识别方法。

背景技术

说话人识别也称为声纹识别,是指通过对说话人语音信号的分析处理,确认说话人是否属于所记录的说话人集合,以及进一步确认说话人是谁。按其最终完成的任务不同,说话人识别可以分为两类:说话人确认和说话人辨认。

说话人识别领域应用十分广泛,包括公安领域、金融领域、军事领域以及医疗领域等等。但传统的说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等)准确率低、鲁棒性弱、实用性不强,无法满足当前实际应用要求。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。

单一的说话人特征无法较好的完整表达说话人身份,不能完整的表示说话人语音在不同维度上的信息,可能会产生过拟合。除单一特征外,许多学者将一个深度网络中不同层的输出作为特征,以此来丰富说话人的身份特征,但特征间冗余度较高,同时也会极大增加系统的计算量。因此,目前说话人识别算法无法较好的表达说话人身份信息,其识别的准确率有待提高。

发明内容

本发明针对现有技术存在的不足,提供了一种基于多类谱图特征注意力融合网络的说话人识别方法,只需将语音信号变换成三种不同的谱图,并将三种谱图在空间上进行堆叠,依次训练三个34层残差网络和一个3DCNN残差网络模型,最后将输出的特征向量进行融合识别,有效的解决了单一特征无法完整表达说话人身份的问题,提高了说话人识别的准确率。

本发明的具体技术方案如下:

一种基于多类谱图特征注意力融合网络的说话人识别方法,如图1所示,包括以下步骤:

步骤1:对语音信号进行端点检测,目的是去除收集到的语音所包含的静音片段,消除无声段噪声;

步骤2:对消除静音片段后的语音信号进行预加重,目的是去除口唇辐射的影响,增加语音的高频分辨率;

步骤3:对预加重后的语音信号进行分帧,由于语音信号在“短时间”内可以认为是稳态的、时不变的,所以在进行语音信号处理前需要分帧,帧长一般取10~30ms,并且为了使特征参数平滑地变化,往往设置在相邻的两帧之间有一部分重叠;

步骤4:对分帧后的每帧语音信号进行加窗,目的是为了减少语音信号截断导致的频谱泄露;

步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;

步骤6:分别计算生成语音信号的语谱图、Mel-Fbank谱图和Gam-Fbank谱图;

步骤7:分别利用语谱图、Mel-Fbank谱图和Gam-Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;

步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;

步骤9:在上述四个模型后端分别引入注意力机制,目的是分配给每个通道不同的权重,让网络关注重要的特征,抑制不重要的特征,从而生成最佳特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都图灵志杨信息科技有限责任公司,未经成都理工大学;成都图灵志杨信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110887726.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top