[发明专利]一种基于注意力机制的图像-文本数据融合方法和系统有效

申请号：	201811644583.6	申请日：	2018-12-29
公开（公告）号：	CN109785409B	公开（公告）日：	2020-09-08
发明（设计）人：	刘进;郭峻材;沈晨凯;崔晓晖;储玮;周平义;余啸;付忠旺	申请（专利权）人：	武汉大学
主分类号：	G06T11/60	分类号：	G06T11/60;G06K9/62
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于注意力机制的图像‑文本数据融合方法和系统，该方法首先构建基于注意力机制的图像‑文本数据融合网络，并基于特定任务构建完整的训练网络，再利用训练集进行训练，然后将待融合的图像和文本数据输入训练好的数据融合网络中，实现两者的数据融合。具有如下突出的特点和优点：第一，引入位置编码代替循环神经网络对文本上下文进行建模，数据融合网络的可并行化程度更高，训练模型的训练速率更快；第二，通过图像和文本在语义层次上的融合，使得融合后的数据质量更高，可用性更强；第三，该方法可以通过多种任务训练数据融合网络，鲁棒性更强。
搜索关键词：	一种基于注意力机制图像文本数据融合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于注意力机制的图像‑文本数据融合方法，其特征在于，包括如下步骤：步骤S1，收集特定任务下的图像和文本数据集；步骤S2，对收集到的图像和文本数据集进行预处理，作为训练集；步骤S3，构建基于注意力机制的图像‑文本数据融合网络；步骤S4，根据任务构建输出网络，连接于数据融合网络之后，形成训练网络；步骤S5，利用训练集对训练网络进行训练；步骤S6，对待融合的图像和文本数据集进行预处理；步骤S7，将预处理后的图像和文本数据输入训练好的数据融合网络，输出即为图像和文本的融合数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811644583.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T11-00 2D［二维］图像的生成
G06T11-20 .根据基本元素绘图，例如：直线或圆
G06T11-40 .通过添加表面特征填充平面，例如：色彩或纹理
G06T11-60 .编辑图形和文本，组合图形或文本
G06T11-80 .使用诸如鼠标、光笔、键盘上的方向键等手输入设备建立或修改手绘或手写图像

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力机制的图像-文本数据融合方法和系统有效

专利文献下载