[发明专利]一种图像描述的方法有效

专利信息
申请号: 202010240856.1 申请日: 2020-03-31
公开(公告)号: CN111523534B 公开(公告)日: 2022-04-05
发明(设计)人: 王俊豪;罗雪妮;罗轶凤;钱卫宁;周傲英 申请(专利权)人: 华东师范大学
主分类号: G06V10/80 分类号: G06V10/80;G06V10/774;G06K9/62;G06N3/04;G06T9/00;G06F40/30;G06F40/295;G06F40/284;G06V10/764;G06V10/25;G06V10/82;G06V10/44
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 描述 方法
【权利要求书】:

1.一种图像描述的方法,其特征在于,该方法按下述步骤进行图像描述:

步骤1:找到开源的并且标注好描述的图像描述数据集,将数据集切分为训练集、验证集和测试集;

步骤2:对步骤1中的描述,利用BERT工具对句子中的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;

步骤3:对图像,使用Faster-RCNN工具抽取图像感兴趣区域特征向量并识别图像实体区域框以及图像实体类别;

步骤4:对步骤3中的图像实体类别,利用BERT工具对实体类别名称进行识别,获取固定长度的类别特征词向量;

步骤5:对步骤3中的图像实体区域框,使用ResNet工具对实体区域中的图片进行识别,获取固定长度的图像实体特征向量;

步骤6:使用步骤3~5对步骤1中的训练集图像和验证集图像进行图像特征抽取,使用Ml-Transformer模型对训练集图像感兴趣区域特征向量、类别特征词向量以及图像实体特征向量进行训练,得到图像描述模型,训练过程中采用验证集图像特征验证模型训练效果,验证集不参与训练;

步骤7:使用步骤3~5对上述步骤1中的测试集图像进行测试集图像特征抽取,对步骤6中生成的图像描述模型输入测试集图像感兴趣区域特征向量、类别特征词向量以及图像实体特征向量,实现对测试集中的图像进行描述,得到测试集的精度;其中:

所述步骤6具体包括:

a、模型训练包含两个过程,基于交叉熵损失的训练过程以及基于强化学习的训练过程,两个训练过程使用数据集均为MSCOCO 2014训练集及其对应的标注;在训练集中,一张图像由抽取出来的图像感兴趣区域特征向量、类别特征词向量以及图像实体特征向量所形成的特征组进行表征,对应5句描述;描述中包含的每个句子的单词均映射成分布式表示,并根据预先训练的词向量进行嵌入;每一张图像的特征组以及其对应的分布式表示后的一句描述为一个训练样本对,将训练样本对先应用于Ml-Transformer模型基于交叉熵损失的训练过程,再将训练样本对先应用于Ml-Transformer模型基于强化学习优化的训练过程;

b、Ml-Transformer模型由编码器和解码器组成;编码器由一个双线性池化特征抽取器、多层简单图像特征编码器、名为multi-head attention的self attention特征抽取器和名为position-wise feed-forward networks的简单前馈网络组成;解码器由多模态双线性池化特征抽取器,带掩码的multi-head attention特征抽取器,multi-headattention特征抽取器和简单前馈网络组成;

c、在基于交叉熵损失的训练过程的编码器中,首先将图像特征组中的图像实体特征向量送入编码端双线性池化特征抽取器中,抽取图像二阶精细特征,然后将图像特征组中图像感兴趣区域特征向量送入多层简单编码器,编码出多层图像信息;一层简单编码器由一个multi-head attention特征抽取器和一个简单前馈网络组成;通过multi-headattention特征抽取器,将每一层图像信息与图像二阶精细特征融合,再流通过一个简单前馈网络,以获得该层的精细化图像融合信息;将每一层的精细化图像融合信息与其经过sigmoid函数的门限流通量进行点积,获得每一层的流通信息分量,最后求和获得编码端的结果;

d、在基于交叉熵损失的训练过程的解码器中,首先在分布式表示后的描述中添加位置向量信息,送入带掩码的multi-head attention特征抽取器获得掩盖了已生成词之后的词信息的序列特征,将编码端输出与序列特征通过multi-head attention特征抽取器融合成多模态图像特征;将特征组中类别特征词向量与图像实体特征向量放入多模态双线性池化特征抽取器抽取其精细化多模态特征;通过multi-head attention特征抽取器融合多模态图像特征与精细化多模态特征,再流通过一个简单前馈网络,以获得下一层编码器的序列特征输入;循环多层,将最后一层编码器的简单前馈网络输出作为解码端的最终结果;将结果经过softmax层获得输出序列的概率,计算出与样本对中的真实描述的交叉熵损失;每训练完一个epoch,在验证集上验证目前模型的拟合状态,验证过程中不进行反向迭代;

e、基于强化学习的训练过程中,CIDEr-D被视为奖励函数;首先将图像特征组与分布式表示的描述流过编码端和解码端,获得最后一层编码器的简单前馈网络输出;然后按照以下两种方式获得句子:概率值最大的词组成的句子和采用蒙特卡洛采样组成的句子;分别与真实描述计算奖励得分再作差,作为奖励系数,然后获得最后的损失继而反向迭代;每训练完一个epoch,在验证集上验证目前模型的拟合状态,验证过程中不进行反向迭代。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010240856.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top