[发明专利]基于神经网络堆叠自编码器多特征融合的声音识别方法有效
申请号: | 201710864695.1 | 申请日: | 2017-09-22 |
公开(公告)号: | CN107610692B | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 曹九稳;程飞;王建中 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/20;G10L25/24;G10L25/30;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。首先对原始声音数据进行分帧加窗,对分帧加窗后的数据分别提取其典型的时域线性预测倒谱系数与频域Mel频率倒谱系数特征;再对所提取的特征进行拼接,构建声信号的初步特征表示向量并创建训练特征库;然后采用多层神经网络堆叠自编码器进行特征融合与学习;该多层自编码器采用超限学习机算法学习训练;最后所提取的特征再采用超限学习机分类算法训练得到分类器模型;所构建的模型最后用于测试样本分类识别。本发明采用基于超限学习机多层神经网络堆叠自编码器的多特征融合,相比于传统单一特征提取方法,本发明具有更高的识别精度。 | ||
搜索关键词: | 基于 神经网络 堆叠 编码器 特征 融合 声音 识别 方法 | ||
【主权项】:
基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤:(一)模型训练步骤1、对原始声音数据进行分帧加窗,帧长为N,帧移为加汉明窗;步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征,将不同的特征拼接获得R维特征向量;步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练数据集为X={x1,x2,…,xP},其中xi,i=1,…,P为一帧声源数据的RLPCC+RMFCC维的特征向量,P为总共的样本个数;同时将需要识别的声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有M类声源;然后将训练数据集中的每一个样本对应的声源类号组成集合T={t1,t2,…,tP};步骤4、将训练数据集X={x1,x2,…,xP}作为输入,输入至超限学习机自编码器进行特征融合;记第k个ELM‑AE的输入为Xk,其中第1个的ELM‑AE的输入X1=X;假设总共K个ELM‑AE,以第k个ELM‑AE为例;首先获得第k个ELM‑AE的隐藏层输出为Hk=g(WkXk+bk),其中Wk为第k个ELM‑AE的输入层与隐藏层之间的输入权重矩阵,bk为第k个ELM‑AE的隐藏层偏置向量,且Wk和bk均为随机生成,与训练集无关;步骤5、求解最小化问题minβk12C||Hkβk-Xk||22+12||βk||22]]>其中,C是一个权衡系数,用来权衡两项之间的权重;βk是第k个ELM‑AE的输出权重,即ELM‑AE训练出的模型参数;求解上述问题得:βk=HkT(IC+HkHkT)-1Xk,P<Lk,]]>βk=(IC+HkTHk)-1HkTXk,P≥Lk.]]>其中,Lk是第k个ELM‑AE的隐藏层神经元的数量;步骤6、求解第k+1个ELM‑AE的输入为Xk+1=XkβkT]]>步骤7、得到最终的ELM分类器的输入为Xk+1;步骤8、以Xk+1作为输入,得到ELM分类器的隐藏层输出为HELM=g(WELMXk+1+bELM),其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量;求解最小化问题minβELM12C||HELMβELM-Xk+1||22+12||βELM||22]]>得到输出权重βELM=HELMT(IC+HELMHELMT)-1T,P<LELM,]]>βELM=(IC+HELMTHELM)-1HELMTT,P≥LELM.]]>其中LELM为ELM分类器的隐藏层神经元数量;(二)声源预测:对于一个新的未知类型的声源数据,进行如下处理得到其类型:步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接,得到特征向量x;步骤(2)、求得特征融合的结果xK+1,xK+1=βKβK‑1…β1x;步骤(3)、得到ELM的隐藏层输出h=g(WELMxK+1+bELM);步骤(4)、获得未知声源的类型为hβELM。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710864695.1/,转载请声明来源钻瓜专利网。
- 上一篇:英语元音发声纠错方法及装置
- 下一篇:文本语料库的构建方法和装置