[发明专利]一种基于文本生成视频机器人视觉人机交互方法及系统有效
申请号: | 202110405742.2 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113051420B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 许庆阳;周瑞;姜聪;宋勇;李贻斌;张承进;袁宪锋;庞豹;王敏婕 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06T17/20;G06V30/41;G06V10/774 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 264209 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 生成 视频 机器人 视觉 人机交互 方法 系统 | ||
本发明公开了一种基于文本生成视频的机器人视觉人机交互方法及系统,包括:获取待识别的文本信息和源图像;根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。本发明将检索与生成模型相结合,提出一种新的基于文本生成视频的方法,用于机器人视觉人机交互,该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果,能够提升机器人的视觉交互能力。
技术领域
本发明涉及人机视觉交互技术领域,尤其一种基于文本生成视频机器人视觉人机交互方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
机器人在进行人机交互过程中,视觉信息的交互是一种重要的信息交互手段。机器人视觉信息的输出主要以图像、视频等方式进行。当前,机器人主要以固定的图像、视频的播放方式,与人进行视觉信息的交互。
基于文本生成图像的任务是指根据文本描述生成特定的图像,该任务主要包含两个步骤,首先是文本信息的获取,其次是基于获取的文本信息进行图像或视频(图像序列)的合成。在早期的研究中,主要采用基于检索与监督学习相结合的方法。通过对相关关键词检索,寻找最优的匹配图像,最终基于语义关系,生成满足要求的图像。通过这种在已有数据库中检索的方式获得的图像比较准确,语义相关性比较高。但是,这种方法对检索数据库的依赖性较高,缺乏生成未知语义对应图像的能力。
随着深度学习技术的发展,基于深度网络的文本生成图像方法逐渐兴起。与传统的基于文本生成图像(检索与监督学习方法)相比,基于深度学习的生成方法(生成模型与无监督学习方法)可以实现端到端的训练,极大提高生成图像的多样性。变分自编码器是最基本的生成模型,主要是基于统计建模理论建立输入输出网络映射模型,然后通过计算生成图像与真实图像之间的均方误差来实现网络的训练。分自编码器能够提高生成图像的多样性,但是生成的图像会比较模糊。深度递归注意力模型是利用深度递归网络与注意力机制相结合的方式进行图像的生成,并在此基础上提出了基于字幕和软注意力机制的堆叠结构的深度递归注意力模型。随着模型的不断改进,生成图像的质量在不断提高,但是效果还是不尽人意。
生成对抗网络的提出为更好地完成生成任务提供了新的思路。生成对抗网网络主要包含生成模型(G)与判别模型(D)。生成模型接收噪声向量(z),根据数据分布生成图像(Xg),生成模型的目标是生成足以以假乱真的图像。判别模型接收真实图像(Xr)与伪图像(Xg),并对真伪模型进行区分。
为了训练模型,损失函数表达式如下所示:
其中,pdata()是真实数据分布,Pz(z)是噪声向量,是学习真实图像数据分布PG的先验模型。判别模型(D)目标是最大化分配正确的标签给真实训练样本和来自生成模型的概率,而生成模型(G)则是将log(1-D(G(z)))最小化,即生成模型(G)与判别模型(D)是根据V(D,G)进行相互博弈的过程。其网络结构如图1所示。
与变分自编码器相比,生成对抗网络在训练和生成样本时不需要对马尔科夫链进行展开推理。生成对抗网络生成的图像更加真实、清晰。基于生成对抗网络的文本生成视频的原理如图1所示。模型的输入是文本信息,通过文本嵌入函数将文本信息转化为特征向量,根据文本特征向量生成满足要求的视频(序列图像)。
然而单纯的基于生成对抗网络的文本生成图像存在一定弊端。首先,生成对抗网络的收敛性比较差,生成对抗网络在训练的过程中可能会出现“模型崩塌”现象,即不同的噪声向量生成大量相同或者完全相近的图像;其次,通过生成对抗网络生成图形会有一定的随机性,特别是对于复杂的语义信息,生成的图像质量较差,文本与图像的语义一致性较差。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110405742.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型双面气泡膜生产线
- 下一篇:图像色温调整方法、装置以及存储介质