[发明专利]基于迭代学习的图像描述重生成系统及方法有效
| 申请号: | 201811176057.1 | 申请日: | 2018-10-10 |
| 公开(公告)号: | CN109447242B | 公开(公告)日: | 2021-08-20 |
| 发明(设计)人: | 张玥杰;周练;田勇;张涛 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06T11/00 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 学习 图像 描述 生成 系统 方法 | ||
本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于迭代学习的图像描述重生成系统及方法。
背景技术
图像描述生成(Image Captioning)是一项非常重要的视觉任务,即为图像生成一句描述其视觉内容的自然语言。图像描述生成任务可以实现从视觉到文本的映射,具有非常广阔的应用前景,例如,跨媒体检索、盲人辅助等。图像描述生成任务非常具有挑战性,模型不仅需要准确地识别出图像中的显著性对象、对象的属性以及对象之间的交互关系,还要将这些识别出来的信息进行整合,最终生成一句有意义的自然语言描述。目前,实现图像描述生成的方法可以大致分为三类,即基于检索的方法、基于模板的方法以及基于序列学习的方法。前两种方法有比较明显的缺点,效果上不如基于序列学习的方法。所以,基于序列学习的方法是目前用于实现图像描述生成的主流方法。基于序列学习的方法是在深度神经网络快速发展的背景下提出的。具体来说,基于序列学习的方法从神经机器翻译领域的编码器-解码器框架获得启发,使用深度卷积网络CNN(Convolutional Neural Network)作为图像编码器,将图像编码成高维向量表示,然后利用循环神经网络RNN(RecurrentNeural Network)作为解码器,对图像的高维向量表示进行解码,最终生成图像的视觉描述。
目前,已经有实验证明视觉和语义的显著性广泛存在于图像描述任务中。但是,大部分基于单轮学习的图像描述生成模型无法利用视觉和语义上的显著性信息来增强模型的学习。所以,基于单轮学习的图像描述生成模型面临着两个问题。第一,粗糙的全局图像特征表示。许多模型利用深度卷积网络卷积层输出的特征图来编码图像,也就是将图像划分成小区域,每个区域表示成一个特征向量。在第一轮学习的初始时刻,由于无法判断哪些区域是显著区域,所以模型只能将这些区域特征向量进行简单的平均来得到一个图像的全局表示,然后基于该表示进行解码。因为人在描述图像的视觉内容时往往只描述图像的显著性区域,所以通过简单地将各个区域的特征向量进行平均得到的图像表示无法很好地编码图像的显著性视觉信息,从而损害最终生成的图像描述的质量。第二,语义信息的缺失。每个图像的视觉内容都对应一定的主题(例如“汽车”,“鲜花”等),所以主题词将有助于模型更好地理解图像的语义内容,从而提高所生成图像描述的质量。但是,对于只进行一轮学习的模型来说,模型无法获取测试集图像的主题词信息。为了解决以上问题,前期已经有一些工作提出利用人眼焦点数据集来学习一个图像显著性区域预测器,用于生成图像的显著性区域掩码,并利用显著性区域掩码来精炼图像的视觉表示。此外,还有工作利用检索、多实例学习、多标签分类等技术来学习图像语义预测器,从而为图像描述生成模型提供更多关于图像的显著性语义信息。但是,当我们的目标只是为图像生成描述时,上述方法引入了额外的负担。更好的方法应该是让图像描述生成模型自己去识别图像的显著性区域以及获取与显著性区域相对应的显著性语义信息。随着深度神经网络的发展,当前的图像描述生成模型已经可以学习到足够准确的图像视觉和语义显著性信息。但是由于单轮学习以及缺乏显著性信息提取和融合的机制,当前的模型无法很好地利用学习到的有益信息。基于上述考虑,本发明采用迭代学习的方式,通过视觉显著性检测以及主题词机制从第一轮模型中提取有益的显著性信息,并通过相应的显著性融合机制将显著性信息融入到第二轮的学习中,从而让图像描述生成模型能够更加充分地利用自己学习到的知识来提高模型的性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811176057.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





