[发明专利]基于视觉对比注意力的隐式多模态匹配方法及系统在审
申请号: | 202210169569.5 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114626441A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 殷亚珏;李寿山;王晶晶 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/205;G06F40/284;G06N3/04;G06N3/08;G06V10/40;G06V10/82 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 王广浩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 对比 注意力 隐式多模态 匹配 方法 系统 | ||
本发明公开了一种基于视觉对比注意力的隐式多模态匹配方法,包括:S1、进行语料标注,在存在隐式对齐关系的图像区域和文本短语之间建立起一一映射关系;S2、根据建立的映射关系,对输入图片‑文本对进行特征提取,得到图片对象特征序列和文本短语特征序列;S3、对图片对象特征和文本短语特征进行特征交互,计算出对齐和未对齐的视觉表示;S4、计算真值标签的对齐和未对齐视觉表示的预测概率,将对齐和未对齐视觉表示的预测概率都作为对比感知损失函数共同组成目标函数。本发明通过识别出文本和图像中实体间的隐式的匹配关系,来帮助模型更好地理解多模态的语义信息,显著地提升了隐式语料集上的匹配性能。
技术领域
本发明涉及计算机技术领域,特别涉及一种基于视觉对比注意力的隐式多模态匹配方法及系统。
背景技术
在参考文献中,模型是一种双线性注意力网络,通过交互来自图像和文本两个模态的输入信息,其中文本模态和图像模态分别使用GRU和Faster RCNN提取特征,并利用双线性池化提取两个模态的联合表示,然后结合多模态残差网络利用BAN网络的注意力图来学习多模态细粒度实体之间的匹配关系。
在实际应用场景中,大多数用于描述图像区域的文本短语中包含的语义信息相对集中,同时它们之间的匹配关系也相对容易的能被模型捕捉到,但是,仍然存在一部分文本短语包含的语义信息较为离散,因此对于模型来说,这部分文本短语和图像区域间的匹配关系是难以捕捉的,我们认为它们之间的匹配关系是隐含或者隐式的。大量的实验表明,隐式现象在语料集中是普遍存在的,并且在大多数任务中,想要提升这部分数据上的性能是非常困难的。
现有的细粒度多模态匹配任务,大多基于文本和图像中实体对的无差别匹配。实际场景中,多数描述图像区域的文本短语中包含的语义信息相对集中,匹配关系也相对容易的能被模型捕捉到,但是,仍然存在一部分文本短语包含的语义信息较为离散,对于模型来说,这部分文本短语和图像区域间的匹配关系是难以捕捉的,可以认为它们之间的匹配关系是隐含或者隐式的。大量的实验表明,隐式现象在语料集中是普遍存在的,并且在大多数任务中,想要提升这部分数据上的性能是非常困难的。
参考文献:Kim J H,Jun J,Zhang B T.Bilinear attention networks[J].arXivpreprint arXiv:1805.07932,2018。
发明内容
本发明要解决的技术问题是提供一种通过识别出文本和图像中实体间的隐式的匹配关系来帮助模型更好的理解多模态的语义信息、显著提升了隐式语料集上的匹配性能的基于视觉对比注意力的隐式多模态匹配方法。
为了解决上述问题,本发明提供了一种基于视觉对比注意力的隐式多模态匹配方法,所述基于视觉对比注意力的隐式多模态匹配方法包括以下步骤:
S1、进行语料标注,在存在隐式对齐关系的图像区域和文本短语之间建立起一一映射关系;
S2、根据建立的映射关系,对输入图片-文本对进行特征提取,得到图片对象特征序列和文本短语特征序列;
S3、根据得到的图片对象特征序列和文本短语特征序列,对图片对象特征和文本短语特征进行特征交互,计算出对齐和未对齐的视觉表示;
S4、根据输入图片-文本对的文本语言表示、对齐和未对齐的视觉表示,计算真值标签的对齐和未对齐视觉表示的预测概率,将对齐和未对齐视觉表示的预测概率都作为对比感知损失函数共同组成目标函数,优化过程中的目标是最大化真值标签对应对齐视觉表示的概率,最小化真值标签对应未对齐视觉表示的概率。
作为本发明的进一步改进,步骤S1包括:在开源的Flickr30K语料集上,筛选出具有隐式匹配关系的图像区域和文本短语,在存在隐式对齐关系的图像区域和文本短语之间建立起一一映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210169569.5/2.html,转载请声明来源钻瓜专利网。