[发明专利]一种基于融合门循环网络模型的图像转语言方法在审
| 申请号: | 202110123810.6 | 申请日: | 2021-01-29 |
| 公开(公告)号: | CN112884019A | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 周自维;王朝阳;徐亮 | 申请(专利权)人: | 辽宁科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 沈阳天赢专利代理有限公司 21251 | 代理人: | 赵嬛嬛 |
| 地址: | 114051 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 融合 循环 网络 模型 图像 语言 方法 | ||
1.一种基于融合门循环网络模型的图像转语言方法,其特征在于:包括:
(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;
(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;
(3)将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。
2.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中图像数据集为MSCOCO2014数据集或者MSCOCO2017数据集。
3.根据权利要求1或2所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中将训练集中的图像数据进行预处理,包括:
(1-1)将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
(1-2)获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
(1-3)统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。
4.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(2)中融合门循环网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。
5.根据权利要求4所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁科技大学,未经辽宁科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110123810.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化脱胶机
- 下一篇:一种可逆可调控双功能水凝胶及其制备方法与应用





