[发明专利]一种语音情绪识别方法、装置及电子设备有效
| 申请号: | 202110929972.9 | 申请日: | 2021-08-13 |
| 公开(公告)号: | CN113808619B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 陈蓉 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/24;G06N3/0464;G06N3/084 |
| 代理公司: | 北京猷德知识产权代理有限公司 16084 | 代理人: | 范继晨 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 情绪 识别 方法 装置 电子设备 | ||
本公开提供了一种语音情绪识别方法、装置及电子设备,包括:获取目标对象的原始语音特征;获取原始语音特征的原始区域,其中,原始区域用于表征原始语音特征在原始粒度中的情绪信息;对原始区域中包括的至少两个单元进行合并处理,基于处理结果得到目标区域,并基于原始区域和目标区域对原始语音特征进行处理,得到目标语音特征,其中,目标区域用于表征原始语音特征在目标粒度中的情绪信息,目标粒度大于原始粒度;对目标语音特征进行识别,得到与目标语音特征匹配的语音情绪结果。本公开解决了相关技术中识别语音中情绪的准确率较低的技术问题。
技术领域
本公开涉及深度学习技术领域,进一步涉及语音技术领域,尤其涉及一种语音情绪识别方法、装置及电子设备。
背景技术
语音是人类交流中情感的重要载体,语音识别时关注说话者说了什么,而情绪识别是关注说话者是如何说的,人们在不同情绪状态下的语音表达方式会有不同,例如高兴时说话的语调会比较欢快,而烦躁伤心时语气会比较沉闷。
目前,可以通过注意力模型来对语音中的情绪进行识别。但是传统的注意力模型是使用预设的粒度来对语音中有关情绪的信息进行处理的。通过预设的粒度难以得到语音中更多的情绪信息。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本公开提供了一种语音情绪识别方法、装置及电子设备。以至少解决相关技术中识别语音中情绪的准确率较低的技术问题。
根据本公开的一方面,提供了一种语音情绪识别方法,包括:获取目标对象的原始语音特征;获取原始语音特征的原始区域,其中,原始区域用于表征原始语音特征在原始粒度中的情绪信息;对原始区域中包括的至少两个单元进行合并处理,基于处理结果得到目标区域,并基于原始区域和目标区域对原始语音特征进行处理,得到目标语音特征,其中,目标区域用于表征原始语音特征在目标粒度中的情绪信息,目标粒度大于原始粒度;对目标语音特征进行识别,得到与目标语音特征匹配的语音情绪结果。
根据本公开的又一方面,还提供了一种语音情绪识别装置,包括:第一获取模块,用于获取目标对象的原始语音特征;第二获取模块,用于获取原始语音特征的原始区域,其中,原始区域用于表征原始语音特征在原始粒度中的情绪信息;第一处理模块,用于对原始区域中包括的至少两个单元进行合并处理,基于处理结果得到目标区域,并基于原始区域和目标区域对原始语音特征进行处理,得到目标语音特征,其中,目标区域用于表征原始语音特征在目标粒度中的情绪信息,目标粒度大于原始粒度;第一识别模块,用于对目标语音特征进行识别,得到与目标语音特征匹配的语音情绪结果。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述任一项的语音情绪识别方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据上述任一项的语音情绪识别方法。
在本公开中,可以先获取目标对象的原始语音特征,然后获取原始语音特征的原始区域,其中,原始区域用于描述原始语音特征在原始粒度中的情绪信息,通过对原始区域中包括的至少两个单元进行合并处理,得到处理结果,可以基于该处理结果得到目标区域,其中,目标区域用于描述原始语音特征在目标粒度中的情绪信息,其中,目标粒度大于原始粒度,以使得到的目标语音特征中的包含有不同粒度的目标区域,然后可以对目标语音特征进行识别,得到与目标语音特征匹配的语音情绪结果,达到了对原始语音特征中的原始区域进行扩展的目的,从而实现通过不同粒度的原始区域以及目标区域来得到包含有多个粒度的情绪信息的目标语音特征,从而对该目标语音特征进行识别,可以提高语音情绪识别的准确率,进而解决相关技术中识别语音中情绪的准确率较低的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110929972.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多级时间呈现装置及其方法
- 下一篇:一种镁合金笔记本外壳磨抛装置





