[发明专利]一种基于短语音的声纹识别方法有效
申请号: | 202110696040.4 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113488058B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 熊盛武;王丹 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L25/24 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 声纹 识别 方法 | ||
本发明公开了一种基于短语音的声纹识别方法,解决现有声纹识别模型在短语音条件下识别准确率低的问题。本发明首先提出了一种基于频谱的数据增强方式,扩充训练数据集;然后使用MFCC和PNCC的融合特征提取帧级说话人特征;帧级特征提取网络为一种改进的残差网络(ResNet)—深度残差收缩网络(DRSN),该网络在ResNet基础上加入软阈值化作为收缩层,用于去除冗余信息;最后使用双重自注意力机制将帧级特征聚合为句子级特征,得到说话人嵌入。相比于现有的声纹识别技术,本发明提取的说话人嵌入包含更丰富的说话人信息,从而提升了声纹识别在短语音条件下的识别准确率,使得声纹识别技术更适用于实际生活场景。
技术领域
本发明属于深度学习和声纹识别技术领域,具体涉及一种基于短语音的声纹识别方法。
背景技术
声纹识别在实际生活中有着非常广泛的应用前景,比如安防领域帮助刑侦破案和电信反欺诈,金融领域声纹登陆和支付,智能家居的个性化智能音箱等。然而,虽然基于深度学习的声纹识别已经具有很高的识别准确率,但是这些声纹识别系统通常为长语音识别,测试语音通常为5s以上。由于训练数据不足,并且实际应用中用户通常只能向声纹识别系统提供1-5秒的短语音,导致声纹识别性能急剧下降,从而限制了声纹识别的实际应用范围。
现有提高短语音声纹识别准确率的方法主要集中在使用更有效的特征提取网络和特征聚合策略,除此之外最新的方法是使用长语音补偿短语音,补偿方法包括知识蒸馏、元学习和生成对抗网络(GAN)。知识蒸馏方法用长语音数据集训练的教师网络,同时用短语音训练一个学生网络,然后用教师网络学到的知识传递给学生网络,以补偿语音信息不足的问题;元学习方法采用不平衡的长度对训练一个原型网络,不平衡长度对为一个长语音支持集和一个短语音查询集,并强制网络对支持集和查询集一起分类;GAN提出了一种对抗性学习的嵌入映射模型,对于从同一说话人的话语中提取的短嵌入对和长嵌入对,将短嵌入直接映射到增强的可分辨性的嵌入。
发明内容
本发明目的在于通过扩充训练数据以及改进特征提取网络和特征聚合策略,从长度有限的语音中提取尽可能多的说话人特征,丰富说话人特征表达,从而提高短语音声纹识别准确率;提出了一种基于短语音的声纹识别方法,使得提取的说话人特征包含更丰富的信息,从而提升短语音条件下声纹识别的准确率。
本发明的方法所采用的技术方案是:一种基于短语音的声纹识别方法,包括以下步骤:
步骤1:数据增强;
扩充公开语音数据集Voxceleb1和Voxceleb2,然后将数据集中的语音随机剪切为0~Ns短语音,其中N为预设值;
步骤2:声学参数提取;
从原始语音波形分别提取梅尔频率倒谱系数MFCC和和功率归一化倒谱系数PNCC;
步骤3:帧级特征提取;
将MFCC特征与PNCC特征融合,共同输入帧级特征提取网络,提取帧级说话人信息;
所述帧级特征提取网络包括1个一维卷积,1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS;
步骤4:帧级特征聚合;
将帧级说话人信息输入到句子级特征聚合网络,采用双重注意力机制将帧级特征聚合为句子级特征;
所述句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC;
所述双重注意力机制为两个并行的自注意力模块,分别为位置注意力模块和信道注意力模块;位置注意力模块包括4个一维卷积,通过自注意力机制学习空间特征的相关性;信道注意力机制包括2个一维卷积,通过自注意力机制学习信道特征的相关性;
步骤5:利用损失函数训练声纹识别模型直至损失函数收敛,保存声纹识别模型参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110696040.4/2.html,转载请声明来源钻瓜专利网。