[发明专利]一种基于注意力机制的图像-文本数据融合方法和系统有效
申请号: | 201811644583.6 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109785409B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 刘进;郭峻材;沈晨凯;崔晓晖;储玮;周平义;余啸;付忠旺 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 图像 文本 数据 融合 方法 系统 | ||
本发明公开了一种基于注意力机制的图像‑文本数据融合方法和系统,该方法首先构建基于注意力机制的图像‑文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。具有如下突出的特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。
技术领域
本发明涉及一种图像和文本的数据融合方法,具体是构建基于注意力机制的图像-文本数据融合网络,然后根据特定任务构建完整的训练网络,再利用训练集进行训练,最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据,是一种基于注意力机制的图像-文本数据融合方法。
背景技术
近年来,随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究,数据融合技术的应用领域也从军事迅速扩展到了民用。目前,数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。
当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说,信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外,还有方法的运算速度和精度;与前续预处理系统和后续信息识别系统的接口性能;与不同技术和方法的协调能力;对信息样本的要求等。一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法,但在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法。
近年来,人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类:a)功能型模型,主要根据节点顺序构建;b)数据型模型,主要根据数据提取加以构建。从算法层面考虑数据融合的常用方法基本上可概括为随机和人工智能两大类。随机类算法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、证据推理、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗糙集理论、专家系统等。在计算机计算能力的迅速增长和大数据背景下,神经网络这一方法表现出来远超其他方法的融合效果。
随机类算法在过往都有过较好的融合表现力,但随着技术的不断发展,这些方法或多或少存在着一些局限性:
(1)如卡尔曼滤波器在组合信息大量冗余的情况下,计算量将以滤波器维数的三次方剧增,实时性不能满足;传感器子系统的增加使故障随之增加,在某一系统出现故障而没有来得及被检测出时,故障会污染整个系统,使可靠性降低;
(2)多贝叶斯估计法只适用于静态环境的高层数据融合,同时它需要满足的假设条件在现实情况中很难达到;
(3)当有新的数据源加入到系统中时,产生式规则需要及时加入新的附加规则,在实际操作过程中维护比较困难。
发明内容
本发明的目的在于针对目前各源数据融合算法中存在的适用范围受限,融合效果不理想,提供一种基于注意力机制的图像-文本数据融合方法。该方法首先构建基于注意力机制的图像-文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。
为了达到上述的目的,本发明的构思如下:收集特定任务的图像-文本训练数据并进行预处理;构建基于注意力机制的图像-文本数据融合网络并根据相应任务构建完整的训练网络;对训练网络进行训练;将训练好的数据融合网络用于图像和文本的数据融合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644583.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种填图方法、装置及电子设备
- 下一篇:一种图层合并方法、装置及相关组件
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序