[发明专利]一种双向多模态递归网络的图像描述方法有效
申请号: | 201710528814.6 | 申请日: | 2017-07-01 |
公开(公告)号: | CN107391609B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 唐金辉;束炎武 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/51;G06K9/62;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱宝庆 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双向 多模态 递归 网络 图像 描述 方法 | ||
1.一种双向多模态递归网络的图像描述方法,其特征在于,包括以下步骤:
步骤1,下载图像作为训练集,获取训练集中的图像及其对应的描述语句;
步骤2,提取训练集中的语句中出现的单词并构建词汇表;
步骤3,利用预训练好的卷积神经网络提取数据集中图像的特征;
步骤4,构建双向多模态递归网络模型,将提取得到的图像特征与对应的文本特征进行融合;
步骤5,对双向多模态递归网络模型进行训练;
步骤6,将一幅图片输入到预训练好的模型中,得到对应的描述语句;
步骤4通过下述公式将提取得到的图像特征与对应的文本特征进行融合:
步骤4.1,构建双向多模态递归网络模型,该模型包括视觉模型部分、语言模型部分和一个多模态层用来连接这两部分,其中视觉模型部分包括步骤3中的Google Inceptionv3网络,语言模型部分包括两个单词嵌入层,一个双向递归层和一个中间层;
步骤4.2,输入一个单词并通过模型中的两个单词嵌入层来进行编码,得到one-hot形式的文本特征向量;
步骤4.3,文本特征向量通过一个中间层转变成维度与卷积神经网络提取数据集中图像的特征的维度一致的特征向量;
步骤4.4,上述特征向量与步骤3中得到的图像特征向量进行点乘操作,形成改良后的视觉特征
I′(t)=f(inter(w(t))*I)
其中,I为原始图像特征,w(t)为文本特征,inter()是中间层,这里的权重是模型在训练过程中学习得到的,*为矩阵的点乘操作,f()为ReLU激活函数,I′(t)为融合的图像特征。
2.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
步骤2.1,对于数据集的每一条语句,利用Natural Language Toolkit工具包将语句拆分成各个单词;
步骤2.2,保留出现次数不低于3个的单词,并将删除的单词统一用一个符号代替;
步骤2.3,在每一条语句的开始和结尾处添加开始标志和结束标志;
步骤2.4,对训练集中的所有语句完成步骤2.1-2.3,保留的单词、符号、每一条语句的开始标志和结束标志构成词汇表。
3.根据权利要求1所述的方法,其特征在于,步骤3中训练好的卷积神经网络的标准为该卷积神经网络在数据集ImageNet上进行训练达到收敛。
4.根据权利要求1所述的方法,其特征在于,步骤5的具体过程在于:
步骤5.1,步骤4.2中得到的one-hot形式的文本特征向量输入到双向递归层中;
步骤5.2,双向递归层分别从正向和反向来学习文本序列信息并输出,正向递归层用来处理一个正向语句的每一个单词的文本特征,反向递归层则是用来处理颠倒后的语句序列的每一个单词的文本特征,公式如下:
其中,R()代表递归层,w(t)为时刻t的文本特征,r(t)和r(t-1)分别为双向递归层在时刻t和t-1的输出;
步骤5.3,步骤5.2的输出、步骤4.2中得到的one-hot形式的文本特征向量和步骤4.4中改良后的视觉特征输入至多模态层中进行处理,公式为
其中,分别为对应时刻的单词的文本特征,分别为对应时刻的改良后的视觉特征,分别为双向递归层对应时刻的隐藏状态,f()为ReLU激活函数;
步骤5.4,多模态层的输出结果输入到一个softmax层进行分类,输出为步骤2中得到的词汇表中的各个单词的概率大小,从中选择概率最大的单词作为最终的结果,包括正向和反向两个结果,正向则该单词为输入单词的后一个单词,反向则该单词为输入单词的前一个单词;
步骤5.5,将两个方向上的每个单词连接起来,得到正向和反向两个句子,分别求出这两个句子中各个单词的概率和作为对应语句的概率,根据两个语句的概率,选取较大的结果作为最终的描述语句,公式如下:
其中,wt为时刻t的单词,w0:t-1为从开始时刻到时刻t-1的单词,wt+1:T为从时刻t+1到结束时刻的单词;
步骤5.6,使用步骤1中的数据集对网络模型进行训练并达到收敛得到模型中所有层的权重参数,保证在给定数据集中图像视觉特征的前提下,得到图像对应句子的概率最大,公式为
公式中,I为图像的特征,S为该图像对应的语句,θ为训练得到的模型中所有层的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710528814.6/1.html,转载请声明来源钻瓜专利网。