[发明专利]一种基于3D卷积的孪生网络声纹识别方法有效
申请号: | 201911318077.2 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111048097B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 付翔;梅少辉;杨学军;耿云浩;魏江 | 申请(专利权)人: | 中国人民解放军空军研究院通信与导航研究所;西北工业大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L17/06;G10L17/18;G06N3/04;G06N3/08 |
代理公司: | 西安维赛恩专利代理事务所(普通合伙) 61257 | 代理人: | 刘艳霞 |
地址: | 100085 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 孪生 网络 声纹 识别 方法 | ||
本发明公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia‑Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
【技术领域】
本发明属于声纹识别技术领域,尤其涉及一种基于3D卷积的孪生网络声纹识别方法。
【背景技术】
声纹识别(Speaker Verification)是通过分析录音设备记录的说话人的语音特点来鉴别说话人身份的一种算法。声纹识别可进一步的分为文本相关声纹识别和文本无关声纹识别,文本相关声纹识别需要说话人说出预先指定的内容,而文本无关声纹识别对说话人的语音内容不作要求。
现在声纹识别领域应用最多的框架是无监督高斯混合模型(GMM),GMM模型是一种统计模型,在数据不足的情况下,GMM模型很难建立说话人的空间分布,因此后来有学者提出基于GMM的高斯混合通用背景模型(GMM-UBM),GMM-UBM引入了背景模型,进一步提高了识别精度。一些基于GMM-UBM的方法包括i向量(i-vector)已经在声纹识别领域展现出了自己的高效性。尽管现有的方法可以高效的完成声纹识别的任务,但目前的算法仍有自己的缺点,其中最主要的是现有算法无法有效的利用说话人的独特的语音特点,这主要是因为GMM模型本身是非监督模型。当前,一些算法开始采用监督的模型来改进GMM等非监督算法,例如基于GMM-UBMs的SVM分类模型,PLDA i-vectors模型。还有一些学者收到深度学习的启发,讲DNNs网络从语义识别领域迁移到声纹识别领域,并取得了不错的效果。但是这些算法都没有考虑不同说话人可能存在相似语音,同一说话人也可能在不同状态下说话差异较大的情况。而在基于深度学习的声纹识别方法中,虽然卷积神经网络CNNs已经作为主要的特征提取的网络被广泛的应用,但是目前的CNNs特征提取网络知识利用的为一维卷积和二维卷积的方法。但是一维卷积和二维卷积的方法忽略语音信息的空域和时域特征,识别率不高。
【发明内容】
本发明的目的是提供一种用于声纹识别的基于3D卷积的孪生网络,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
本发明采用以下技术方案:一种用于声纹识别的基于3D卷积的孪生网络,包括:
特征提取单元:用于将音频数据转化为三维张量,三维张量即为MFLC特征。
Sia-Net网络:用于处理MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。
CNN网络:用于建立每一个说话人的模型库。
预测单元:用于测试音频数据的说话人身份。
进一步地,该Sia-Net网络:为两个,每一个Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层、一个池化层、一个Flatten层和一个全连接层。
进一步地,该CNN网络包括依次相连接的三个全连接层和一个Softmax层。
进一步地,该距离为欧氏距离。
本发明还公开了上述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;
对所述三维张量进行随机两两配对组合,产生的配对组合共有C2m个,其中:m为三维张量的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军空军研究院通信与导航研究所;西北工业大学,未经中国人民解放军空军研究院通信与导航研究所;西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911318077.2/2.html,转载请声明来源钻瓜专利网。