[发明专利]面向交互的语音语料处理方法及装置在审

申请号：	201711145982.3	申请日：	2017-11-17
公开（公告）号：	CN107863111A	公开（公告）日：	2018-03-30
发明（设计）人：	孙晓;曹馨月;丁帅;杨善林;赵大平;屈炎伟;丁彬彬	申请（专利权）人：	合肥工业大学;卫宁健康科技集团股份有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30;G10L25/27
代理公司：	北京路浩知识产权代理有限公司11002	代理人：	王莹,余罡
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供了一种面向交互的语音语料处理方法及装置，该方法中先将语音片段转换为时频图，再利用两个卷积层学习该时频图的特征得到特征图矩阵，接着利用最大池化层对该特征图矩阵进行压缩，将压缩之后的矩阵转换为向量，利用两个LSTM层对该向量进行生成学习，将学习之后的特征向量作为SVM的输入语料，从而能够增加有效语料的数量，有利于语音情感识别模型的训练，提高语音情感识别模型的识别能力。
搜索关键词：	面向交互语音语料处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种面向交互的语音语料处理方法，其特征在于，包括：对语音片段进行短时傅立叶变换，依据预设的窗口函数在所述的频谱上移动，得到所述语音片段的时频图；利用两个卷积层学习所述时频图的特征，得到所述时频图对应的特征图矩阵，所述特征图矩阵包含若干个经过两个卷积层学习之后获得的特征单元矩阵；利用最大池化层对所述特征图矩阵进行压缩得到压缩矩阵，所述压缩矩阵仅包含各个所述特征单元矩阵中的最大值；将所述压缩矩阵转换为对应长度的向量，利用两个长短期记忆网络LSTM层学习所述向量的深层特征得到特征向量，将所述特征向量作为支持向量机的输入语料。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学;卫宁健康科技集团股份有限公司，未经合肥工业大学;卫宁健康科技集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711145982.3/，转载请声明来源钻瓜专利网。

上一篇：基于智能耳机的安全提醒方法、智能耳机及存储介质
下一篇：一种音频获取方法及装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向交互的语音语料处理方法及装置在审

专利文献下载