[发明专利]一种用于医疗护理机器人的多模态情感识别方法在审
| 申请号: | 202210399065.2 | 申请日: | 2022-04-15 |
| 公开(公告)号: | CN114724224A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 付明磊;张欣;张文安;刘锦元;仇翔;刘安东;杨旭升;史秀纺;周叶剑;吴麒;胡佛 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82;G06V10/46 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 舒良 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 医疗 护理 机器人 多模态 情感 识别 方法 | ||
1.一种用于医疗护理机器人的多模态情感识别方法,包括以下步骤:
1、进行多模态情感信息采集,采集到患者的视频信息和音频信息,
2、根据所述视频信息进行表情自注意力情感特征提取和动作自注意力情感特征提取,根据所述音频信息进行语音自注意力情感特征提取和文本自注意力情感特征提取;
3、所述4种自注意力情感特征进行基于互注意力机制情感特征融合,得到完整的多模态情感特征;
4、所述多模态情感特征进行基于图卷积神经网络的上下文情感特征提取,得到包含上下文信息的多模态情感特征;
5、所述包含上下文信息的多模态情感特征进行情感分类识别得到情感标签结果;
6、根据所述情感标签结果进行语音交互和显示。
2.如权利要求1所述的一种用于医疗护理机器人的多模态情感识别方法,其特征在于:步骤2所述的表情自注意力情感特征提取,根据所述视频信息提取患者表情的情感特征向量,并通过自注意力机制转化为表情自注意力情感特征;
提取患者表情的情感特征向量具体包括:
首先使用预训练模型和组合网络来提取视频特征,同时使用人脸表情识别库对分帧之后的图片进行人脸面部的关键点检测,之后通过计算中心点,计算距离中心点的距离,得到关键点的特征,最后将两部分特征进行拼接形成完整的表情情感特征;
通过自注意力机制转化为表情自注意力情感特征具体包括:
将得到的表情情感特征作为自注意力机制的输入,按照视频信息对应得视频帧数将表情情感特征向量转换为I组特征向量,每组特征向量大小为其中I为视频帧帧数,E为表情情感特征向量维数。通过自注意力机制得到的表情自注意力情感特征如下所示:
其中为第i组特征向量的权重系数,fiE表示第i组特征向量,exp表示以自然常数e为底的指数函数,WE为可训练的线性变换参数向量,FE为通过自注意力机制的表情自注意力情感特征;
所述动作自注意力情感特征提取,根据所述视频信息提取患者动作的情感特征向量,并通过自注意力机制转化为动作自注意力情感特征;
所述提取患者动作的情感特征向量具体包括:
首先使用预训练模型和组合网络来提取视频特征,同时使用人体姿态检测库对分帧之后的图片进行人体的关节点检测,之后通过计算人体重心,计算各个关节点到重心的距离和角度,得到人体关节点的特征,最后将两部分特征进行拼接形成完整的动作情感特征;
所述通过自注意力机制转化为动作自注意力情感特征具体包括:
将得到的动作情感特征作为自注意力机制的输入,按照视频信息对应得视频帧数将动作情感特征向量转换为J组特征向量,每组特征向量大小为其中J为视频帧帧数,A为动作情感特征向量维数;通过自注意力机制得到的动作自注意力情感特征如下所示:
其中为第j组特征向量的权重系数,表示第j组特征向量,exp表示以自然常数e为底的指数函数,WA为可训练的线性变换参数向量,FA为通过自注意力机制的动作自注意力情感特征;
所述语音自注意力情感特征提取,根据所述音频信息提取患者语音的情感特征向量,并通过自注意力机制转化为语音自注意力情感特征;
所述提取患者语音的情感特征向量具体包括:将采集到的音频信号进行预处理并绘制语谱图,之后构建并训练卷积神经网络,最后利用训练完成的网络提取语音情感特征;
所述通过自注意力机制转化为语音自注意力情感特征具体包括:将得到的语音情感特征作为自注意力机制的输入,按照每个音频信息的语音帧数将语音情感特征向量特征转换为K组特征向量,每组特征向量大小为其中K为音频帧帧数,V为表情情感特征向量维数。通过自注意力机制得到的表情自注意力情感特征如下所示:
其中为第k组特征向量的权重系数,表示第k组特征向量,exp表示以自然常数e为底的指数函数,WV为可训练的线性变换参数向量,FV为通过自注意力机制的语音自注意力情感特征;
所述文本自注意力情感特征提取用于根据所述音频信息提取患者文本的情感特征向量,并通过自注意力机制转化为文本自注意力情感特征;
所述提取患者文本的情感特征向量具体包括:首先使用端到端ASR系统将音频信号提取成文本信息,之后利用预训练模型提取文本信息中的词向量特征,之后对每个句子中每个词的词向量进行相加得到句子向量,同时利用预训练模型提取每个句子的句子向量,最后将两部分提取的句子向量进行组合拼接得到完整的文本情感特征;
所述通过自注意力机制转化为文本自注意力情感特征具体包括:将得到的文本情感特征作为自注意力机制的输入,根据文本的单词数价格文本情感特征向量转换为L组特征向量,每组特征向量大小为其中L为音频帧帧数,X为文本情感特征向量维数;通过自注意力机制得到的文本自注意力情感特征如下所示:
其中为第l组特征向量的权重系数,flX表示第l组特征向量,exp表示以自然常数e为底的指数函数,WX为可训练的线性变换参数向量,FX为通过自注意力机制的语音自注意力情感特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210399065.2/1.html,转载请声明来源钻瓜专利网。





