[发明专利]基于深度学习的人际交互肢体语言自动生成方法及系统有效
申请号: | 201810623961.6 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108921284B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 甘甜;马志鑫;宋雪萌;聂礼强 | 申请(专利权)人: | 山东大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G10L25/63;G10L15/26 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250101 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 人际 交互 肢体 语言 自动 生成 方法 系统 | ||
1.基于深度学习的人际交互肢体语言自动生成方法,其特征是,包括:
步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的一一对应关系;
步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;
步骤(3):从待推荐肢体动作的音频中提取音频测试特征;
步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征;
所述步骤(2)中,将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型,步骤为:
步骤(201):根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频训练特征;将每个声音行为对应的音频训练特征输入到第一编码器中,第一编码器输出每个音频训练特征的隐藏层状态;
步骤(203):将每个声音行为对应的肢体训练特征集合视为肢体动作行为;将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态;
步骤(204):将每一帧图像的肢体训练特征视为肢体动作单元,在得到每个肢体动作行为的隐表达之后,构建肢体动作行为与肢体动作行为包含的每一帧图像的关系,并通过第一解码器将肢体动作单元的隐表达解码为每个语音区间对应的帧的肢体动作特征的预测,选取概率最大的肢体动作作为预测的肢体动作;
步骤(205):利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值,如果损失值在设定范围内,则表示双层循环神经网络模型训练合格,进入步骤(3);否则表示双层循环神经网络模型训练不合格,调整双层循环神经网络模型的参数后,返回步骤(201)继续训练,直至损失值在设定范围内,结束。
2.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;是指:
将演讲视频的音频信号均匀划分为长度为秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征,通过音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频训练特征。
3.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述从演讲视频中提取每一帧图像内人物的肢体训练特征;是指:
将演讲视频的视频信号以帧为单位划分为若干帧图像,对每一帧图像使用肢体语言识别系统OpenPose检测出图像中人物各关节点坐标位置,对各关节点坐标位置进行归一化后,得到每一帧图像的人物关节与关节坐标位置关系矩阵;根据每一帧图像的人物关节与关节坐标位置关系矩阵计算关节夹角的角度,根据关节夹角的角度将当前帧图像映射到预先设定活动状态中最接近的一个状态作为肢体训练特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810623961.6/1.html,转载请声明来源钻瓜专利网。