[发明专利]一种语义独立的语音情绪特征识别方法及装置在审
申请号: | 201711258175.2 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108010516A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 郑渊中 | 申请(专利权)人: | 广州势必可赢网络科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/63;G06F17/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 独立 语音 情绪 特征 识别 方法 装置 | ||
本发明实施例公开了一种语义独立的语音情绪特征识别方法及装置。本发明可以不依赖语义而直接判断说话人情绪,通过对PCM数据和情绪数据库中的声谱特征、韵律学特征和音质特征进行匹配,根据匹配度确定PCM数据对应的情绪类别,提取这些物理特征的方法较为简洁方便,并且处理过程高效快速,并且多种类别的语音特征综合匹配可以实现情绪特征的准确识别,解决了当前的语音情绪识别处理过程复杂,实现难度高,过度依赖于语义和处理时间长的技术问题。
技术领域
本发明涉及音频识别领域,尤其涉及一种语义独立的语音情绪特征识别方法及装置。
背景技术
随着计算机技术与人们的日常生活的深入结合,人们已经不满足于通过计算机进行音频识别仅仅能确认说话人和语音识别,人们希望计算机可以更智能化,可以识别语义,情绪等更高级的信息。
情绪信息是语音中非常重要的一种信息资源。与语音识别技术不同,情绪识别系统更关注的是说话人的说话方式,是更深层次的潜藏在表面与剧中的语气和态度,可以认为是语音信号中隐藏的高阶信息。
实际上,在人与人交流的过程中,同一说话者用不同情绪说完全相同的两句话,可以表现出完全不同的意思。
然而在传统的智能语音数据分析中,情绪信息被当做是个体之间的差异,从而损失了非常有价值的信息。
目前语音情绪识别技术的实现方案多是语音识别与表情识别和语义识别等识别方式进行结合。但是,多种识别方式结合进行情绪识别不仅仅处理过程复杂,实现难度高,需要进行图像和视频处理等处理方法,并且处理时间较长。因此,导致了当前的语音情绪识别处理过程复杂,实现难度高,过度依赖于语义和处理时间长的技术问题。
发明内容
本发明提供了一种语义独立的语音情绪特征识别方法及装置,解决了当前的语音情绪识别处理过程复杂,实现难度高,过度依赖于语义和处理时间长的技术问题。
本发明提供了一种语义独立的语音情绪特征识别方法,包括:
S1:获取wav格式的音频文件中的PCM数据;
S2:将PCM数据进行语音特征提取,获取PCM数据的声谱特征、韵律学特征和音质特征;
S3:将PCM数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配,根据模式匹配的结果输出匹配度最大的情绪类别。
优选地,所述步骤S3具体包括:
S301:获取与情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值;
S302:将PCM数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配;
S303:根据PCM数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征的匹配程度和情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值计算各种情绪类别的加权平均数,以加权平均数为匹配度,输出匹配度最大的情绪类别。
优选地,所述声谱特征具体包括:MFCC特征和GFCC特征。
优选地,所述韵律学特征具体包括:Pitch特征、Short Term Energy特征、ZCR特征和Speed特征。
优选地,所述音质特征具体包括:Formants特征。
本发明提供了一种语义独立的语音情绪特征识别装置,包括:
音频获取模块,用于获取wav格式的音频文件中的PCM数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州势必可赢网络科技有限公司,未经广州势必可赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711258175.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种除气式熔铝装置
- 下一篇:一种多用途家庭浴室用柜