[发明专利]语音情感识别方法及相关装置、电子设备和存储介质在审
申请号: | 202111363984.6 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114333786A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 石周;高天;方昕 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L15/25;G10L25/63 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情感 识别 方法 相关 装置 电子设备 存储 介质 | ||
1.一种语音情感识别方法,其特征在于,包括:
获取待识别语音;
利用情感识别网络对所述待识别语音进行识别,得到所述待识别语音的情感类别;
其中,所述情感识别网络包含于联合模型,所述联合模型还包括域识别网络,所述联合模型是基于所述情感识别网络对属于第一数据域类别的第一样本语音的情感分类损失以及所述域识别网络分别对所述第一样本语音和第二样本语音的域分类损失联合训练得到的,且所述第二样本语音属于第二数据域类别,所述第一样本语音标注有样本情感类别。
2.根据权利要求1所述的方法,其特征在于,所述情感识别网络和所述域识别网络共享情感特征提取子网络,所述联合模型的训练步骤包括:
利用所述情感特征提取子网络分别对所述第一样本语音和所述第二样本语音进行情感特征提取,得到所述第一样本语音的第一情感特征和所述第二样本语音的第二情感特征;
基于所述第一情感特征进行情感类别预测,得到所述第一样本语音的预测情感类别,并分别基于所述第一情感特征和所述第二情感特征进行域类别预测,得到所述第一样本语音所属的第一预测域类别和所述第二样本语音所属的第二预测域类别;
分别基于所述第一预测域类别与所述第一数据域类别之间的差异、所述第二预测域类别与所述第二数据域类别之间的差异,以及所述预测情感类别与所述样本情感类别之间的差异,得到第一损失、第二损失和第三损失;
基于所述第一损失、所述第二损失和所述第三损失得到总损失,并基于所述总损失调整所述联合模型的网络参数。
3.根据权利要求2所述的方法,其特征在于,所述第一损失、所述第二损失分别与所述总损失负相关,所述第三损失与所述总损失正相关。
4.根据权利要求2所述的方法,其特征在于,所述情感识别网络还包括情感分类子网络,所述情感分类子网络用于执行所述情感类别预测;
和/或,所述域识别网络还包括域分类子网络,所述域分类子网络用于执行所述域类别预测。
5.根据权利要求2所述的方法,其特征在于,所述第一样本语音是从样本视频中分离出来的,且所述样本视频还分离出样本人脸图像,所述联合模型还包括图像特征提取网络,在所述基于所述第一情感特征进行情感类别预测,得到所述第一样本语音的预测情感类别之前,所述方法还包括:
利用所述图像特征提取网络对所述样本人脸图像进行图像特征提取,得到所述样本人脸图像的样本图像特征;
将所述第一情感特征与所述样本图像特征进行融合,得到样本融合特征;
所述基于所述第一情感特征进行情感类别预测,得到所述第一样本语音的预测情感类别,包括:
基于所述样本融合特征进行情感类别预测,得到所述预测情感类别。
6.根据权利要求2所述的方法,其特征在于,所述联合模型还包括说话人识别网络,所述说话人识别网络包括说话人特征提取子网络,在所述基于所述第一损失、所述第二损失和所述第三损失得到总损失之前,所述方法还包括:
利用所述说话人特征提取子网络对所述第一样本语音进行说话人特征提取,得到所述第一样本语音的说话人特征;
基于所述第一情感特征与所述说话人特征之间的互信息,得到第四损失;
所述基于所述第一损失、所述第二损失和所述第三损失得到总损失,包括:
基于所述第一损失、所述第二损失、所述第三损失和所述第四损失,得到所述总损失;其中,所述总损失与所述第四损失正相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111363984.6/1.html,转载请声明来源钻瓜专利网。