[发明专利]一种基于振幅和相位信息的语音情感识别方法在审

申请号：	201811212955.8	申请日：	2018-10-18
公开（公告）号：	CN109389992A	公开（公告）日：	2019-02-26
发明（设计）人：	王龙标;郭丽丽;党建武;张林娟;关昊天	申请（专利权）人：	天津大学;慧言科技（天津）有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/45;G10L25/18
代理公司：	北京栈桥知识产权代理事务所(普通合伙) 11670	代理人：	胡颖
地址：	300073***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于振幅和相位信息的语音情感识别方法，包括以下步骤：步骤一，输入数据准备：选择情感识别数据库，并对数据进行分段处理；步骤二，提取振幅和相位信息；步骤三，构建卷积神经网络，从振幅和相位的融合信息中提取深度特征；步骤四，构建长短时记忆网络，完成情感分类；最后，输出情感分类结果。本发明的语音情感识方法和现有技术相比，考虑到了语音的相位信息，有效利用相位和振幅信息的互补性，选用CNN自动从振幅和相位信息中同时提取深度情感相关特征，大大的提高了特征的丰富性，获得更好语音情感识别效果。
搜索关键词：	相位信息语音情感情感分类构建卷积神经网络输入数据准备分段处理记忆网络情感识别深度特征振幅信息数据库互补性语音融合输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于振幅和相位信息的语音情感识别方法，其特征在于,包括以下步骤：步骤一，输入数据准备：对语音情感数据库中的语音信号进行数据准备，把每一句语音信号切分成固定长度的段；步骤二，数据预处理：1)振幅信息提取：通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a，为了方便卷积操作，进行旋转操作，时间轴变为纵向，尺寸变为a×b，用V1表示振幅矩阵；2)相位信息提取：提取每一段语音对应的相位信息包含相对相位和MGDCC两种信息，用V2表示相位矩阵；3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起，组成一个大的信息矩阵V，第i句话的第t段语音的融合如公式(1)：其中，代表第i句话的第t段的振幅信息，第i句话的第t段的相位信息；步骤三，深度特征提取：把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特征,深度特征维度为n；步骤四，决策：采用BLSTM做最后的决策，一句话的所有段级别的特征输入到BLSTM中，然后BLSTM会根据所有段计算出代表一句话的特征，最后输入到softmax分类器中完成句子的情感分类，分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学;慧言科技（天津）有限公司，未经天津大学;慧言科技（天津）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811212955.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于麦克风阵列的信号增强方法
下一篇：一种语音数据采集方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于振幅和相位信息的语音情感识别方法在审

专利文献下载