[发明专利]一种嵌入式语音情感识别方法及装置有效

专利信息
申请号: 201110358672.6 申请日: 2011-11-11
公开(公告)号: CN102737629A 公开(公告)日: 2012-10-17
发明(设计)人: 黄永明;章国宝;董飞;祖晖;刘海彬;倪道宏 申请(专利权)人: 东南大学
主分类号: G10L15/00 分类号: G10L15/00;G10L15/06
代理公司: 南京天翼专利代理有限责任公司 32112 代理人: 汤志武
地址: 211189 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种嵌入式语音情感识别方法及装置。所述方法包括特征提取方法、情感模型训练方法、高斯混合模型、情感识别方法。该方法根据说话人模块的识别结果来自适应的调整语音情感识别模型的参数,将非特定人语音情感识别问题转化为特定人语音情感识别问题。所述装置包括中央处理器、电源、时钟发生器、Nand Flash存储器、Nor Flash存储器、音频编解码芯片、话筒、扬声器、键盘、LCD显示器、USB接口存储器。本发明在语音情感识别中加入说话人识别模型,解决了语音情感识别在非特定人的情况下识别率急剧下降的问题,同时使装置具有身份辨识功能。
搜索关键词: 一种 嵌入式 语音 情感 识别 方法 装置
【主权项】:
1.一种嵌入式语音情感识别方法,其特征在于,包括以下步骤:步骤1:接收待识别的情感语音片断输入;步骤2:对待识别的情感语音片断数字化以提供数字语音信号;步骤3:对待识别的情感数字语音信号X(n)进行预处理,包括预加重、分帧、加窗、端点检测:步骤3.1:对待识别的情感数字语音信号X(n)按下面进行预加重:式中α=0.9375,n表示待识别的情感数字语音离散点序号;步骤3.2:采用交叠分段的方法进行分帧,前一帧与后一帧之间有交叠的部分,称为帧移,此处帧移取7ms,即在11.025kHz采样率下取80个点,每一帧长取23ms,即取256个点;步骤3.3:选择汉明窗对语音信号进行加窗处理,窗口函数如下:式中n′表示每一帧数字语音离散点序号,N表示每一帧数字语音离散点点数,此处N=256;步骤3.4:采用公知的能量过零率双门限判决法来完成端点检测,即依据环境噪声的能量和过零率都低于语音信号的短时能量和短时过零率的原则,首先用短时能量作第一级判别,然后在此基础上再用短时过零率作第二级判别,计算出短时能量上限、下限和过零率门限的值,然后对每帧数据进行判断,端点检测后得到每一帧数字语音X(n′);步骤4:对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数;步骤5:将步骤4提取的语音特征参数输入到已经训练好的各说话人识别子模型中,来确定哪一个说话人识别子模型是该语音片断的一个最佳匹配,根据 匹配的说话人识别子模型来选择该模型对应的说话人;步骤6:根据步骤5说话人的判定结果,从训练好的说话人语音情感识别模型库中选择该说话人对应的语音情感识别模型;步骤7:将步骤4提取语音特征参数输入到步骤6选择的语音情感识别子模型中,所述语音情感识别模型包括高兴、生气、悲伤、害怕、平静五个已经训练好的情感子模型,根据语音情感识别模型中的输出结果来确定哪一种情感是该语音片断的一个最佳匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110358672.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top