[发明专利]一种端到端的文本无关声纹识别方法及系统在审
申请号: | 202111056143.0 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113763966A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 熊盛武;字云飞;冯莹;王旭;李涛 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/02;G10L17/18 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 文本 无关 声纹 识别 方法 系统 | ||
1.一种端到端的文本无关声纹识别方法,其特征在于,包括:
S1:获取大量的说话人语音数据,作为训练数据集;
S2:构建声纹识别模型,其中,声纹识别模型包括帧级特征提取层、话语级特征提取层、高阶注意力池化层以及全连接层,帧级特征提取层包括三个时延神经网络TDNN,用于提取输入语音数据中的帧级特征;话语级特征提取层包括三个门控循环单元GRU,用于对帧级特征进行全局特征提取和时序表示,生成话语级特征;高阶注意力池化层包括高阶统计池化层和高阶注意力池化层,高阶统计池化层用于将话语级特征提取层输出的话语级特征拼接成句级说话人表示,高阶注意力池化层用于对帧级特征提取层输出的帧级特征进行加权计算,得到帧级说话人嵌入;全连接层用于将句级说话人表示与帧级说话人嵌入进行拼接,得到全面的说话人表示;
S3:将训练数据集输入声纹识别模型,并构建AM-softmax损失函数进行训练,得到训练好的声纹识别模型;
S4:利用训练好的声纹识别模型对输入语音进行识别。
2.如权利要求1所述的文本无关声纹识别方法,其特征在于,第一个TDNN网络设有基于sinc函数的滤波器,该滤波器用于对原始语音的输入波形和有限脉冲响应之间执行时域卷积,用以提取最具表征说话人稳定性和唯一性的声纹特征。
3.如权利要求2所述的文本无关声纹识别方法,其特征在于,第二个TDNN网络和第三个TDNN网络用于根据第一个TDNN网络的输出,通过多层次卷积操作提取局部语音特征,得到最终的帧级特征。
4.如权利要求1所述的文本无关声纹识别方法,其特征在于,GRU用于对帧级特征提取层输出的帧级特征通过卷积、池化和聚合操作,提取说话人嵌入,作为话语级特征。
5.如权利要1所述的文本无关声纹识别方法,其特征在于,步骤S3中构建AM-softmax损失函数为:
其中,N表示一个输入训练的批量,C表示在训练数据集中说话人的数量,xi为最后输出的全面的说话表示,yi表示训练数据集中第i个说话人样本的真实标签,LA,M,S表示AM-softmax损失函数;Z为中间变量;s为缩放因子;表示目标角度;m为一个大于1的整数,cosθj表示计算xj在类别yj的区域。
6.一种端到端的文本无关声纹识别系统,其特征在于,包括:
训练数据集获取模块,用于获取大量的说话人语音数据,作为训练数据集;
声纹识别模型构建模块,用于构建声纹识别模型,其中,声纹识别模型包括帧级特征提取层、话语级特征提取层、高阶注意力池化层以及全连接层,帧级特征提取层包括三个时延神经网络TDNN,用于提取输入语音数据中的帧级特征;话语级特征提取层包括三个门控循环单元GRU,用于对帧级特征进行全局特征提取和时序表示,生成话语级特征;高阶注意力池化层包括高阶统计池化层和高阶注意力池化层,高阶统计池化层用于将话语级特征提取层输出的话语级特征拼接成句级说话人表示,高阶注意力池化层用于对帧级特征提取层输出的帧级特征进行加权计算,得到帧级说话人嵌入;全连接层用于将句级说话人表示与帧级说话人嵌入进行拼接,得到全面的说话人表示;
模型训练模块,用于将训练数据集输入声纹识别模型,并构建AM-softmax损失函数进行训练,得到训练好的声纹识别模型;
识别模块,用于利用训练好的声纹识别模型对输入语音进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111056143.0/1.html,转载请声明来源钻瓜专利网。