[发明专利]一种基于融合门循环网络模型的图像转语言方法在审

专利信息
申请号: 202110123810.6 申请日: 2021-01-29
公开(公告)号: CN112884019A 公开(公告)日: 2021-06-01
发明(设计)人: 周自维;王朝阳;徐亮 申请(专利权)人: 辽宁科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08
代理公司: 沈阳天赢专利代理有限公司 21251 代理人: 赵嬛嬛
地址: 114051 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 融合 循环 网络 模型 图像 语言 方法
【权利要求书】:

1.一种基于融合门循环网络模型的图像转语言方法,其特征在于:包括:

(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;

(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;

(3)将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。

2.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中图像数据集为MSCOCO2014数据集或者MSCOCO2017数据集。

3.根据权利要求1或2所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中将训练集中的图像数据进行预处理,包括:

(1-1)将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;

(1-2)获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;

(1-3)统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。

4.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(2)中融合门循环网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。

5.根据权利要求4所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁科技大学,未经辽宁科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110123810.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top