[发明专利]基于深度学习的人际交互肢体语言自动生成方法及系统有效
申请号: | 201810623961.6 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108921284B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 甘甜;马志鑫;宋雪萌;聂礼强 | 申请(专利权)人: | 山东大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G10L25/63;G10L15/26 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250101 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 人际 交互 肢体 语言 自动 生成 方法 系统 | ||
本发明公开了基于深度学习的人际交互肢体语言自动生成方法及系统,包括:步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的的一一对应关系;步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;步骤(3):从待推荐肢体动作的音频中提取音频测试特征;步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征。
技术领域
本发明涉及人工智能技术领域,特别是涉及基于深度学习的人际交互肢体语言自动生成方法及系统。
背景技术
演讲是给观众传递信息的最有效方式之一。除了演讲者的演说内容外,在其演讲过程中演讲者的肢体语言对信息传达也十分重要。通常,不同的演讲者在演讲过程中的表达方式有很大不同。其中,手势作为一种视觉感知,与演说一同表达演讲者的思想。在演讲过程中,手势不仅帮助演讲者丰富其语言内容的画面感,帮助传达情绪,有时还能传达言语无法表达的信息(例如,好的站姿和肢体动作能表现一个人的精神面貌与气质,这是语言所无法传达的)。所以,好的肢体语言能帮助演讲者更好的诠释主题。通常,提高演讲水平最有效方法之一是通过专家的反馈和建议来练习,但雇用专家是昂贵的,因此大部分情况下不太实际。
随着大数据和人工智能技术的兴起,人们对多媒体数据的处理能力飞速增长。在演讲领域,人们对演讲的深度分析的需求越来越大,但始终没能得到很好的解决。在此之前,人们进行了很多诸如演讲打分,语音行为分析等一系列研究。但这些研究结果一方面需要人工标注,只能在小批量数据上进行。另一方面,没有给出具体的建议,无论是分数还是一系列的统计信息,都不能直观的给用户明了的建议。
发明内容
为了解决现有技术的不足,本发明提供了基于深度学习的人际交互肢体语言自动生成方法及系统;
本发明第一方面,提供了基于深度学习的人际交互肢体语言自动生成方法;
基于深度学习的人际交互肢体语言自动生成方法,包括:
步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的的一一对应关系;
步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;
步骤(3):从待推荐肢体动作的音频中提取音频测试特征;
步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征。
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;是指:
将演讲视频的音频信号均匀划分为长度为秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征,通过音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频训练特征。
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像内人物的肢体训练特征;是指:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810623961.6/2.html,转载请声明来源钻瓜专利网。