[发明专利]融合多种端到端神经网络结构的说话人感冒症状识别方法在审
申请号: | 201710146957.0 | 申请日: | 2017-03-13 |
公开(公告)号: | CN107068167A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 李明;倪志东 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/30;G10L25/24 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 528300 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 多种 端到端 神经网络 结构 说话 感冒 症状 识别 方法 | ||
技术领域
本发明涉及声纹识别领域,更具体地,涉及一种融合多种端到端神经网络结构的说话人感冒症状识别方法。
背景技术
说话人识别又称声纹识别,是利用模式识别技术自动识别说话人的技术。当前的说话人识别技术在实验条件中取得很好的性能,但是在实际中,受识别的语音会受到环境噪声和说话人健康条件的影响,使得已有说话人识别技术的鲁棒性降低。现有的说话人识别方法主要用于说话人身份确定方面,目前还没有相关的应用于说话人感冒症状的识别方法。
在语音技术研究中,研究者总是希望能找到表示目标类型的特征,从识别目标语音中找到明显区别正常语音的特性进行描述,语音特征提取是提取说话人的语音特征和声道特征,目前,主流的特征参数包括MFCC、LPCC、CQCC等,都是以单个特征为主,表征说话人感冒症状的信息不足,影响识别精度。同时需要大量区分分类目标语音的知识,而在识别算法中,起步较早的是基于声道模型和语音模型的方法,但是因为模型的复杂性,没有取得很好的实用效果。而模型匹配方法如动态时间规整、隐马尔可夫模型、矢量量化等技术等开始发挥良好的识别效果。把特征提取和模式分类分开研究是识别研究的常用方法,但是存在特征和模型不匹配、训练困难、特征不易寻找的问题,经典的识别框架存在上述的问题。
近年来随着深度学习的发展,基于深层神经网络在图像和语音的识别已显示出巨大的能量,一系列的神经网络结构也被提出,比如自动编码网络、卷积神经网络和循环神经网络等。有很多学者发现,通过神经网络对语音进行学习,可以得到更好描述语音的隐藏结构特征,端到端的识别方法就是通过尽量少的先验知识,同时对特征学习和特征识别进行处理,具有很好的识别效果。
发明内容
本发明为解决现有技术提供的识别技术将特征提取和模式分类分开导致的特征和模型不匹配、训练困难,特征不易寻找等问题,提供了一种融合多种端到端神经网络结构的说话人感冒症状识别方法,该方法通过把特征学习和模式分类统一在一起,使得整个说话人感冒症状识别过程更加简单快速,具有广泛的应用前景。
为实现以上发明目的,采用的技术方案是:
融合多种端到端神经网络结构的说话人感冒症状识别方法,包括以下步骤:
S1.构建及训练输入为语音,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络A;
S2.构建及训练输入为语音频谱,识别网络为卷积神经网络和长短期记忆网络的端到端神经网络B;
S3.构建及训练输入为语音频谱,识别网络为卷积神经网络和全连接网络的端到端神经网络C;
S4.构建及训练输入为语音MFCC特征/CQCC特征,识别网络为长短期记忆网络的端到端神经网络D;
S5.融合以上四种训练好的端到端神经网络进行说话人感冒症状识别。
优选地,所述端到端神经网络A的卷积神经网络包括8个模块,每个模块均包括一维卷积层、ReLU激活层和一维最大池化层,其中一维卷积层的卷积核的大小为32,一维最大池化层的池化核的大小为2,池化步长为2。
优选地,所述端到端神经网络B的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
优选地,所述端到端神经网络C的卷积神经网络包括6个模块,每个模块包括二维卷积层、ReLU激活层和二维最大池化层;其中第一个卷积层使用7*7的卷积核,第二层使用5*5的卷积核,剩下4层使用3*3的卷积核;所有的最大池化层均使用3*3的池化核,池化步长为2。
与现有技术相比,本发明的有益效果是:
现有识别技术都是把特征和模式分类分开研究,存在特征和模型不匹配、训练困难,特征不易寻找等问题。而本发明提供的方法通过融合四种不同的端到端神经网络把特征学习和模式分类统一在一起,使得整个说话人感冒症状识别过程更加简单快速,具有广泛的应用前景。
附图说明
图1为方法的具体实施示意图。
图2为语音提取梅尔倒谱系数(MFCC)的流程图。
图3为语音提取常数Q倒谱系数(CQCC)的流程图。
图4为端到端神经网络A的示意图。
图5为端到端神经网络B的示意图。
图6为端到端神经网络C的示意图。
图7为端到端神经网络D的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710146957.0/2.html,转载请声明来源钻瓜专利网。