[发明专利]一种基于改进的生成式对抗网络的图像语句转换方法在审
申请号: | 201710598010.3 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107392147A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 蔡强;薛子育;毛典辉;李海生;祝晓斌 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 安丽 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 生成 对抗 网络 图像 语句 转换 方法 | ||
技术领域
本发明总的涉及图像识别技术和句法生成技术领域,具体涉及一种基于改进的生成式对抗网络的图像语句转换方法。
背景技术
随着科技的发展,互联网的普及给人们带来了巨大的信息资源。文字信息是互联网发展初期的主要途径,相比文字信息的单一性,图像和视频等多媒体信息,富含有更多的知识,是一种更为清晰的、更符合人类理解方式的信息载体。随着计算机存储空间和计算效率的不断提升,图像、音频、视频等各类信息大量涌现于各类网站之中,并以惊人的速度迅猛增长。Instagram等应用软件单日图片共享量高达8000万幅,并将逐年成倍增加。
随着多媒体数据逐渐成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,可以通过关键词搜索,轻易找到所需内容并进行任意编辑,而当信息是由多媒体数据记载时,将无法对数据中的内容进行检索,从而影响了从数据中找到关键内容的效率。多媒体数据在带来快捷的信息记录和分享方式的同时,降低了信息检索效率。多媒体数据含有丰富的语义知识,随着信息数量和种类的不断扩大,获取多媒体数据的语义知识,形成“数据-知识”相互驱动的体系逐渐成为了研究重点。
图像语义分析是一种以图像为对象,知识为核心,研究图像中目标的位置信息、场景之间相互关系以及场景应用的一门科学。图像语义分析输入的是数据,输出的是知识,语义作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用。图像语义分析在图像搜索引擎、智能数字图像相册、虚拟世界视觉场景描述等方面有广阔的发展前景。流行的图像语义分析算法主要包括了基于图像分类、基于图像词语转换、基于图像句子转换等。
传统的基于图像分类的语义分析主要分为三个步骤,首先提取图像低层特征,如尺度不变特征变换等算法,然后对特征进行编码表示,最后利用分类器,如支持向量机等方法,对图像进行分类,类别信息即为图像语义信息。
随着大数据时代的到来,传统图像语义分析方法问题逐渐暴露出来。为顺应大数据发展趋势,如斯坦福大学提出的ImageNet等大规模图像数据集先后发出,并且相关人员都在不断地扩充该图像集。相比传统数据集,大规模图像数据集在图像数据规模、类别数量上都有了极大程度上的增加,传统图像文字转换算法中广为使用的多特征和非线性分类器算法和策略,算法具有的高计算强度和高内存消耗等问题,使其无法适应大数据带来的冲击。因此,传统算法逐渐向深度模型进行转变。百度研究院的余凯在2012年的计算机视觉与模式识别会议中提出,这种转变好比“设计特征到设计特征的学习方法”的转变。相比传统方法,深度模型不再需要人工提取特征。引入深度模型极大地减少了人工提取特征产生的消耗性问题,将更多的工作放到了算法的设计本身,在很大程度上提升了算法的效率。
图像文字转换方法大多利用深度模型进行图像特征提取和句法生成。基于区域的卷积神经网络被广泛应用于图像的特征提取,方法通过对区域进行划分,获取到区域内容,并通过文字进行描述获取特征,并输入到句法模型,进行句法生成。递归神经网络是句法生成的常用深度模型,方法设计思路来自于基于多层反馈网络的翻译机器,该翻译机器通过译码器读取源语言的句子,将其转变为固定长度的向量,通过解码器将向量输入到隐层,产生目标语言的句子。方法利用将特征向量进行输入,利用解码器进行句子分析。以上方法进行的句子转换结果单一,不能将特征向量之间的内在关系进行分析,语句输出结果与实际表述存在一定偏差。
针对以上问题,使用更符合人类表达习惯的句法模型是图像句子转换方法中的重要部分。生成式对抗网络,是一种利用生成器和鉴别器彼此“欺骗”和“否定”,最终产生合理结果的方法。该方法利用生成器不断地产生利用特征向量进行不同组合的结果,同时鉴别器不断地鉴别生成结果和语料库中结果的差别,直到生成结果和语料库中的句子几乎一致,则将该生成结果进行输出。生成式对抗网络被应用在图像生成、目标检测、目标分割等领域,生成器大多利用卷积神经网络进行图像生成。据了解,还没有机构和组织利用长短时记忆模型作为生成式对抗网络的生成器和鉴别器,并将该方法与基于区域的卷积神经网络相结合,进行图像句子转换的方法和先例。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于改进的生成式对抗网络的图像结合转换方法,以采用具有生成和鉴别能力的句法模型来解决图像句子转换中句子表述不连贯的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710598010.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种儿童坐姿检测方法及装置
- 下一篇:一种指纹检测方法及移动终端