[发明专利]情绪识别方法、装置、计算机设备及存储介质在审
申请号: | 202011504934.0 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112669876A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 张展望;周超勇;刘玉宇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/63 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情绪 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例属于人工智能领域,涉及一种情绪识别方法、装置、计算机设备及存储介质,其中方法包括:通过获取待识别文件,所述待识别文件为视频片段和/或音频片段;将所述待识别文件输入到预设的特征提取模型进行特征提取,获得所述待识别文件的特征;将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测,获取所述情绪身份识别模型输出的情绪预测结果;根据所述情绪预测结果,确定所述待识别文件的情绪类别。通过身份识别和情绪识别综合训练,学习不同对象不同情绪的特征,提高了情绪识别的准确率。
技术领域
本申请涉及人工智能技术领域,尤其涉及情绪识别方法、装置、计算机设备及存储介质。
背景技术
人脸表情识别(FER)是人工智能重要领域,在视觉任务中,应用前景极其广泛;比如在智能教育中,通过载入表情识别分析课堂学生情绪,教育者基于此分析出学生课堂积极性及课堂成效并掌握全局和个别学生状态及时做出应对,从而指导教育者灵活变动教育互动等方式,提升教育成果转化率,同样应用于安防、智慧城市、在线教育、人机互动和犯罪分析等领域。但现有方法通常根据单一特征来预测情绪,误判率高。
发明内容
本申请实施例的目的在于提出一种情绪识别方法、装置、计算机设备及存储介质,以解决根据单一特征预测情绪,误判率高的问题
为了解决上述技术问题,本申请实施例提供一种情绪识别方法,采用了如下所述的技术方案:
获取待识别文件,所述待识别文件为视频片段和/或音频片段;
将所述待识别文件输入到预设的特征提取模型进行特征提取,获得所述待识别文件的特征;
将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测,获取所述情绪身份识别模型输出的情绪预测结果;
根据所述情绪预测结果,确定所述待识别文件的情绪类别。
进一步的,当所述待识别文件为视频片段时,所述将所述待识别文件输入到预设的特征提取模型进行特征提取,获得所述待识别文件的特征的步骤具体包括:
将所述视频片段输入到预先训练的图像特征提取模型,获得所述视频片段的图像特征;
所述情绪身份识别模型包含预先训练的第一LSTM网络和情绪预测结果输出层,所述将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测,获取所述情绪身份识别模型输出的情绪预测结果的步骤具体包括:
将所述图像特征输入到所述第一LSTM网络,获取所述视频特征的时序图像特征;
将所述时序图像特征输入到所述情绪预测结果输出层,获取所述情绪预测结果输出层输出的情绪预测识别结果。
进一步的,当所述待识别文件为视频片段时,所述情绪身份识别模型还包括身份预测结果输出层,所述情绪身份识别模型的训练包括下述步骤:
获取训练样本,所述训练样本为标注有情绪类别和身份的N个视频片段,N为大于0的正整数;
将所述训练样本输入到所述图像特征提取网络,获得所述训练样本的N个图像特征;
将所述N个图像特征输入到所述情绪身份识别模型中,获得所述情绪预测结果输出层输出的N个情绪预测结果和所述身份预测结果输出层输出的N个身份预测结果;
通过第一损失函数比对所述N个情绪预测结果和所述N个身份预测结果与所述标注的情绪类别和身份识别是否一致,其中所述第一损失函数为:
L1=L1_vEmotion+L1_vFace
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011504934.0/2.html,转载请声明来源钻瓜专利网。