[发明专利]一种基于迭代精细化的图像场景图谱生成方法有效
申请号: | 201910028169.0 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109783666B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 万海;肖逸凡;曾娟 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06V10/764;G06V10/82;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 精细 图像 场景 图谱 生成 方法 | ||
本发明公开一种基于迭代精细化的图像场景图谱生成方法,涉及图像场景图谱领域,包括步骤:输入图像场景图谱数据集及其参数,提取图像的视觉特征;结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;产生出若干个区域包围盒和对应的每个区域的特征向量,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中生成图像描述文段;构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量,至达到最大迭代次数为止。本发明提高了图像场景图谱生成的效果。
技术领域
本发明涉及图像场景图谱表示学习领域,具体公开一种基于迭代精细化的图像场景图谱生成方法。
背景技术
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱关系三元组(头部实体、关系、尾部实体)和图像场景图谱属性三元组(实体、属性类型、属性)的方式记录了图像中的实体、实体的属性以及实体两两之间的关系,并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注,并有相关的研究成果,例如:利用图像场景图谱检索图像;从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答;利用物体检测器和关系检测器生成图像场景图谱。
近年来,图像生成描述文段的方法也受到了人们的关注。图像生成描述文段涉及到为给定的图像生成人类可读的、非结构化的文本描述文段。图像的描述文段生成是计算机视觉和自然语言处理领域的交叉任务,能够完成从图像到文本的多模态转换,最早由Farhadi等人提出。该任务可具体形式化描述为:给定二元组(I,S),其中I表示图像,S表示图像的描述文段,描述文段可以由若干个句子组成;相关模型完成从图像I到描述文段S的多模态映射。该任务对人类而言非常简单,但是对机器来说非常困难,因为它涉及到理解图像的内容,还涉及到将理解到的内容翻译成自然语言。并且该任务,相较于其他图像理解任务而言,比如一句描述图像中的信息、图像场景分类等,对模型捕捉图像整体信息和细节信息的要求更高。融合自然语言处理技术和计算机视觉技术一直是处理这个任务的一大关键。
但是目前场景图谱表示学习方法存在不足,具体地:
(1)目前场景图谱表示学习没有考虑如何引入与图像有关的文本来提高表示学习的质量,特别是如何处理图像有关文本的实体数据。
(2)场景图谱表示学习的主要目的是用于图像问答,目前的模型仅考虑图像本身,忽略了图像上下文蕴含了图谱中结构信息,也不能融合多种其他异构信息。
(3)图像问答过程主要是利用自然语言来进行查询与推理,未引入文本信息,导致场景知识图谱表示能力较弱,更缺乏图像问答所必须的推理过程。
本发明涉及到的图像场景图谱生成方法的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱三元组查询,利用图像信息和其他可以利用的信息得出缺少部分的答案。上述图像场景图谱三元组生成具有重要的意义,因为任意一组图像场景图谱三元组生成都可以转化成一条自然语言的查询,是视觉问答的基础。
发明内容
本发明针对现有图像场景图谱生成所存在的问题,提出一种基于迭代精细化的图像场景图谱生成方法,利用图像描述文段包含的信息,迭代精细化图像场景图谱的视觉关系分类精度,从而达到提高图像场景图谱生成的效果。
本发明采用如下技术方案来实现:一种基于迭代精细化的图像场景图谱生成方法,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
步骤2、结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910028169.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序