[发明专利]一种嵌入式语音情感识别方法及装置有效

申请号：	201110358672.6	申请日：	2011-11-11
公开（公告）号：	CN102737629A	公开（公告）日：	2012-10-17
发明（设计）人：	黄永明;章国宝;董飞;祖晖;刘海彬;倪道宏	申请（专利权）人：	东南大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/06
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	汤志武
地址：	211189 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种嵌入式语音情感识别方法及装置。所述方法包括特征提取方法、情感模型训练方法、高斯混合模型、情感识别方法。该方法根据说话人模块的识别结果来自适应的调整语音情感识别模型的参数，将非特定人语音情感识别问题转化为特定人语音情感识别问题。所述装置包括中央处理器、电源、时钟发生器、Nand Flash存储器、Nor Flash存储器、音频编解码芯片、话筒、扬声器、键盘、LCD显示器、USB接口存储器。本发明在语音情感识别中加入说话人识别模型，解决了语音情感识别在非特定人的情况下识别率急剧下降的问题，同时使装置具有身份辨识功能。
搜索关键词：	一种嵌入式语音情感识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种嵌入式语音情感识别方法，其特征在于，包括以下步骤：步骤1：接收待识别的情感语音片断输入；步骤2：对待识别的情感语音片断数字化以提供数字语音信号；步骤3：对待识别的情感数字语音信号X(n)进行预处理，包括预加重、分帧、加窗、端点检测：步骤3.1：对待识别的情感数字语音信号X(n)按下面进行预加重：式中α=0.9375，n表示待识别的情感数字语音离散点序号；步骤3.2：采用交叠分段的方法进行分帧，前一帧与后一帧之间有交叠的部分，称为帧移，此处帧移取7ms，即在11.025kHz采样率下取80个点，每一帧长取23ms，即取256个点；步骤3.3：选择汉明窗对语音信号进行加窗处理，窗口函数如下：式中n′表示每一帧数字语音离散点序号，N表示每一帧数字语音离散点点数，此处N＝256；步骤3.4：采用公知的能量过零率双门限判决法来完成端点检测，即依据环境噪声的能量和过零率都低于语音信号的短时能量和短时过零率的原则，首先用短时能量作第一级判别，然后在此基础上再用短时过零率作第二级判别，计算出短时能量上限、下限和过零率门限的值，然后对每帧数据进行判断，端点检测后得到每一帧数字语音X(n′)；步骤4：对经过预处理的数字语音提取语音特征参数，该特征参数为12维美尔频率倒谱系数；步骤5：将步骤4提取的语音特征参数输入到已经训练好的各说话人识别子模型中，来确定哪一个说话人识别子模型是该语音片断的一个最佳匹配，根据匹配的说话人识别子模型来选择该模型对应的说话人；步骤6：根据步骤5说话人的判定结果，从训练好的说话人语音情感识别模型库中选择该说话人对应的语音情感识别模型；步骤7：将步骤4提取语音特征参数输入到步骤6选择的语音情感识别子模型中，所述语音情感识别模型包括高兴、生气、悲伤、害怕、平静五个已经训练好的情感子模型，根据语音情感识别模型中的输出结果来确定哪一种情感是该语音片断的一个最佳匹配。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110358672.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种嵌入式语音情感识别方法及装置有效

专利文献下载