[发明专利]一种基于场景图的图像理解与表达方法、系统与存储介质有效

专利信息
申请号: 202210243982.1 申请日: 2022-03-11
公开(公告)号: CN114612767B 公开(公告)日: 2022-11-15
发明(设计)人: 匡平;刘晨阳 申请(专利权)人: 电子科技大学
主分类号: G06V20/00 分类号: G06V20/00;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 场景 图像 理解 表达 方法 系统 存储 介质
【说明书】:

发明公开一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质,应用于图像理解与表达领域,针对现有技术存在的图像表达准确率和效率均较低的问题;本发明提出了基于关键中心点估计的视觉场景图生成方法,不使用大量目标检测锚框和后处理手段,提升了场景图生成的准确率和效率,并充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系,使得图像内容表达语句更准确、更贴近图像内容本身;本发明还引入先验语料知识,补足场景图生成过程中关系谓词等词汇输出的缺失,提升了图像内容理解与表达的表达语句准确率和拟人化水平;相比于现有技术,本发明的图像表达准确率和效率均有显著的提升。

技术领域

本发明属于图像处理领域,特别涉及一种视觉场景图生成技术。

背景技术

图像内容理解与表达,如图1所示,即给定一张输入图像,而后需要机器去感知图像中的目标实体、属性、捕捉画面中的关系,最后生成一段对于图像内容理解的描述性质的表达语句。

图像内容理解与表达领域随着研究的不断深入,主要发展出三条较为成熟的技术路线:模板方法、相似性检索方法和基于编解码及衍生结构方法。基于模板的图像内容理解与表达方法,使用较为传统的视觉依存关系提取图像中的视觉特征,表达阶段使用句法树构建模板式的表达模型;基于相似性检索的图像内容理解与表达方法,通过检索向量空间中最接近与先验数据集中图像内容表达的方式,查询与当前图像模态输入最接近的句式以生成图像表达;基于编解码及衍生结构的方法,使用深度学习方法中卷积神经网络等相关技术构建以提取视觉特征的编码器,并使用基于循环神经网络的解码结构将视觉特征解码为输出语义序列。

1)模板方法:基于模板的方法在图像内容表达过程中使用最大熵语言模型、马尔科夫随机场等相关传统方法构建句法树,并根据先验模板将多个单词或词组组合成对应的图像内容表达。Kulkarni等人于2013年提出了Baby Talk模型,基于条件随机场计算一元图像电势,结合语料库中的高阶文本电势模板,推理出合适的单词和词组并最终形成图像表达。Yang等人提出的图像表达策略通过预测核心句子表达结构中最有可能出现的名词、动词、场景和介词,结合先验语料库模板,实现图像理解与表达。

2)基于相似性检索的方法,多利用图像视觉的相似性而并非直接使用深度学习方法构建对应的理解与表达模型,其方法并非直接理解图像内容而是寻找与先验数据库中数据的相似关联,从本质上将图像理解与表达任务转换为图像检索任务。Mason等人通过估计查询图像的视觉内容的词频解决了视觉噪声与先验数据库中数据的对齐问题,通过寻找相似语义的已标注图像以形成图像表达。

3)基于编解码及衍生结构的方法,是现有研究的主流方法。在原始机器翻译任务中由循环神经网络构建的编解码器中,输入序列与输出序列必须遵守等长的规则,而OVinyals等人提出了Show and Tell模型,将原有机器翻译任务中使用循环神经网络构建的的编码器换成了处理视觉任务的卷积神经网络结构,为图像提取视觉特征,依然使用原有的解码器结构输出序列,解决了编解码器结构中输入输出长度对齐的问题。Kelvin Xu等人提出Show,Attend and Tell模型,将注意力机制引入编解码器结构,使模型能够自动学习需要重点关注的对象,并在输出序列中生成相应的图像表达。Chen等人不仅在编解码器中加入了注意力机制,并改变了解码器部分循环神经网络本身的结构,使模型不仅能够从图像内容理解中获得图像表达,还能从图像表达中获得对图像内容理解的相关图像特征,并提高了运算的整体性能。

现有技术存在以下问题:

(1)现有主流的图像内容理解与表达方法为基于编解码及衍生结构的方法,如图2所示,在该方法中编码器并未充分关注图像内容中实体与属性、实体与实体、实体与背景之间的关系,不能够在解码阶段形成体现图像内容中“关系”的准确图像表达。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210243982.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top