[发明专利]一种情绪识别方法、装置、电子设备及存储介质在审
申请号: | 202111494399.X | 申请日: | 2021-12-08 |
公开(公告)号: | CN114120425A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘高成;刘青松;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/74;G06F40/30;G06K9/62;G10L25/63 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情绪 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种情绪识别方法、装置、电子设备及存储介质。该方法包括:获取待处理的目标视频文件,目标视频文件中包括目标用户的图像以及语音;从目标视频中提取多组图像集合以及语音片段;分析图像集合得到目标用户的面部分析结果,以及分析语音片段获取目标用户的音频分析结果以及语义分析结果;根据面部分析结果、语义分析结果以及音频分析结果确定目标用户的目标情绪类型。本申请通过从视频文件中提取图像集合和语音片段,并基于图像集合和语音片段能够确定用户的面部分析结果,语义分析结果以及音频分析,实现了多维度定位用户的情绪变化,相比现有单纯基于用户文本内容的情绪识别,极大的提高识别用户情绪变化的准确率。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种情绪识别方法、装置、电子设备及存储介质。
背景技术
随着机器学习与人工智能,以及人类行为学研究的发展,人们对人类情绪表达的研究越发重视。传统技术进行情绪识别,一般都是单纯的使用语音或者视觉的方式去识别人们当前的情绪,这种单一的识别方式往往准确率不高,出现误识别的情况。而单纯靠通过视觉方法识别人们的情绪,有的人在喜悦、愤怒、悲伤等情绪时,所表现出的面部表情是不同的;再或者只使用语音方式来识别人们的情绪,通常识别结果会受到方言,说话人口齿是否清晰,以及周围环境的影响,降低了语音检测的准确率。最终导致无法对人的情绪进行精准的识别。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种情绪识别方法、装置、电子设备及存储介质。
根据本申请实施例的一个方面,提供了一种情绪识别方法,包括:
获取待处理的目标视频文件,其中,所述目标视频文件中包括目标用户的图像以及语音;
从所述目标视频中提取多组图像集合以及语音片段;
分析所述图像集合得到所述目标用户的面部分析结果,以及分析所述语音片段获取所述目标用户的音频分析结果以及语义分析结果;
根据所述面部分析结果、所述语义分析结果以及所述音频分析结果确定所述目标用户的目标情绪类型。
进一步的,所述从所述目标视频中提取多组图像集合以及语音片段,包括:
按照预设时间间隔对所述目标视频文件进行分割,得到多个视频片段;
提取所述视频片段中的每帧图像,生成所述视频片段对应的图像集合;
检测所述视频片段中的语音信息,生成所述语音片段。
进一步的,所述分析所述图像集合得到所述目标用户的面部分析结果,包括:
提取所述图像集合中每帧图像的图像特征;
将所述图像集合中图像特征存在用户特征的图像确定为目标图像,其中,所述用户特征为所述目标用户的特征;
将所述目标图像输入第一检测模型,以使所述第一检测模型基于所述目标图像中提取所述目标用户的面部特征以及面部变化特征,并确定所述面部特征以及面部变化特征对应的至少一个第一情绪类型,将所述第一情绪类型确定为所述面部分析结果。
进一步的,所述分析所述语音片段获取所述目标用户的音频分析结果以及语义分析结果,包括:
从所述视频片段中提取所述目标用户的音频数据以及语义数据;
将所述音频数据输入第二检测模型,以使所述第二检测模型从所述音频数据中提取所述目标用户的音频特征以及音频变化特征,并确定所述音频特征以及音频变化特征对应的至少一个第二情绪类型,将所述第二情绪类型确定为所述音频分析结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494399.X/2.html,转载请声明来源钻瓜专利网。