[发明专利]一种基于文本生成视频机器人视觉人机交互方法及系统有效

专利信息
申请号: 202110405742.2 申请日: 2021-04-15
公开(公告)号: CN113051420B 公开(公告)日: 2022-07-05
发明(设计)人: 许庆阳;周瑞;姜聪;宋勇;李贻斌;张承进;袁宪锋;庞豹;王敏婕 申请(专利权)人: 山东大学
主分类号: G06F16/58 分类号: G06F16/58;G06T17/20;G06V30/41;G06V10/774
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 董雪
地址: 264209 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 生成 视频 机器人 视觉 人机交互 方法 系统
【权利要求书】:

1.一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,包括:

获取待识别的文本信息和源图像;

根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;

基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列;

所述动作数据库至少包含人物块、时间块、状态块和动作块;采用总线型拓扑与树型拓扑结构相结合的检索方式,基于获取的文本信息,首先依据树型拓扑结构在动作数据库的每一个块结构中进行分支检索,分别选择匹配度最高的检索结果,然后对各个块结构中筛选出的检索结果进行融合,得到匹配度最高的参考动作;

所述基于文本生成视频任务的网络模型包括:

人体网格复原模块,被配置为根据输入的源图像和动作数据库匹配到的参考动作图像序列,输出是复原后的3D模型信息;

神经网格渲染模块,被配置为将人体网格复原模块输出的3D模型进行映射,并根据其投影顶点计算变换矩阵,将源图像和动作数据库中检索到的参考图像分离成前景图像和背景图形;

多阶段生成对抗网络模块,被配置为实现合成背景图像并且预测隐藏部分的像素颜色,并在3D模型的基础上进行像素点的补充;

对于接收到的动作数据库匹配到的参考动作图像,人体网格复原模块获得二维图像的卷积特征,然后传递到迭代的3D回归模型中,推断出三维人像建模信息以及相机与二维关节的投影关系;构建包含位姿参数的可微的三维人体模型,利用生成对抗网络结构,判断生成的三维模型是否满足正常人体行为活动;

所述神经网格渲染模块将从人体网格复原模块获得的形体参数通过SMPL模型转化为参考图像的三维模型和源图像的三维模型,通过变换矩阵将源图像三维模型在参考图像的三维模型指导下进行三维形态转换;

所述多阶段生成对抗网络模块在第一阶段通过GAN网络实现对预测部分像素颜点的补充,输出补充后的完整的背景信息图;在第二阶段提取和保留图像特征信息,进行前景图像的生成,将生成的前景图像与第一阶段生成的背景图像进行融合,生成包含前景与背景信息的图像;在第三阶段完成最终图像的合成,生成背景信息补充完整、符合语义一致性的图像,将满足要求的图像按照序列生成满足语义要求的视频;

所述多阶段生成对抗网络模块中,第一阶段、第二阶段和第三阶段的生成模型使用的是残差神经网络与全卷积神经网络的组合,在判别模型中使用的是Pix2Pix中的判别模型的框架结构。

2.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述待识别的文本信息为直接输入的文本信息,或者通过输入的语音信息转化成的文本信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110405742.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top