[发明专利]基于动态路由的跨模态注意力筛选网络的跨模态匹配方法在审
申请号: | 202210364577.5 | 申请日: | 2022-04-08 |
公开(公告)号: | CN114676228A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 吴杰;吴春雷;宫法明;张立强;路静 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/583;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 路由 跨模态 注意力 筛选 网络 匹配 方法 | ||
本发明公开了基于动态路由的跨模态注意力筛选网络的跨模态匹配方法。该任务在局部对齐方面已取得显著的进展。它们通常对每幅图像检测置信度排名前36位的显著区域进行建模。但这些区域通常包含不相关的冗余区域,可能会给建模过程引入噪声干扰模型推理。根据我们对该任务中最广泛使用数据集的统计,区域数量远大于单词数量。因此,我们提出一种具有动态路由的跨模态注意力筛选网络,为每个输入图像自动配置适当数量的区域。该网络具有区域数量决策的能力,能够根据不同的数据动态学习不同的激活区域,从而减少冗余计算。此外,设计了跨模态筛选模块,通过过滤无关信息保留有意义的交互特征,抑制无意义对齐的干扰,同时自适应调整全局和局部依赖。
技术领域
本发明属于跨模态匹配的方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
随着创新技术和社交媒体的进步,各种多媒体数据和信息被聚集在一起。为了使计算机能够理解、匹配和转换这种跨模态数据,跨模态检索已成为一种基本技术,它将语义相关的实例从一个模态索引到另一个模态。它在视觉语义导航、视觉问答和图像字幕等领域有很多应用。
跨模态匹配任务主要是通过将图像和句子映射到合适的公共空间来挖掘图像和文本之间的语义关联。大多数早期的方法为图像和文本等不同的模态构造了两个子网络,它们在公共空间进行交互来建模交叉模态的关系。例如Kiros等人采用CNN和LSTM学习图像和句子的表示,并通过三元组排序损失对模型进行优化。Faghriet等人提出了结合硬负样本的三元组排序损失,并在跨模态检索任务上显示出了显著的改进。虽然一些开创性的研究取得了很大的进展,但他们直接学习了全局表示,而忽略了细粒度分析。
因此,越来越多的研究者们致力于探索图像中区域与句子中单词之间的细粒度对应关系,用于图像-文本匹配。Karpathy等人的用于双向图像句子映射的深度碎片嵌入网络,通过提取每个图像和文本的碎片特征来对每个碎片对进行对齐。此外,在自底向上和自顶向下的注意力网络中,提出用一组图像显著区域来描述一幅图像,每个区域用卷积特征向量表示。随后,Lee等人采用自底向上的注意力网络将图像编码为区域级特征,并设计了一种堆叠交叉注意力网络,通过关注与区域相关的单词或与单词相关的区域来推断图像-文本匹配。
同时,外部模块的引用也给跨模态匹配带来了检索结果的提升。例如,刘等人提出了一个图结构匹配网络,该网络将对象、关系和属性显式建模为一个短语,并联合推断出细粒度的对应关系。王等人利用一个外部语料库学习共识感知的概念表示,以进一步加强图像和文本之间的语义关系。而随着Transformers在视觉和语言领域的成功,段等人提出了一种通用编码器,旨在通过预训练的方式学习视觉和语言的更好的联合表示来进行跨模态检索。
此外,目前流行的深度学习模型大多是静态推理,训练后网络参数是固定的,这限制了其表示能力、效率和可解释性。与传统的静态网络结构相比,动态网络通过使其结构或参数适应不同的输入,在效率、兼容性和适应性方面具有优势。特别是,早期的动态方法旨在通过修剪神经元或跳过层来实现网络压缩。例如,陈等人的动态区域感知卷积,使用可学习的指导员将通道级滤波器增加到空间维度,这不仅提高了卷积的表示能力还保持了标准卷积剂量下的计算代价。近年来,一些研究人员针对多分支或树状结构的网络设计了不同的动态路由,并在网络内部进行动态路由,使计算图适应每个样本。Li等人提出了一种软条件门来动态选择尺度变换路径进行语义分割,该门适应了每幅图像的尺度分布。
虽然传统的方法已经取得了很大的进步,但这些工作很大程度上依赖于手工制作的特征,而这些特征并不总是针对特定的目标进行优化,比如每幅图像的区域数量。因此,我们构建了一种具有动态路由的跨模态注意力筛选网络,为每个输入图像自动配置适当数量的区域。使该网络具有区域数量决策的能力,同时减少冗余计算。此外,本发明设计了一种新的跨模态筛选模块,通过过滤无关信息保留有意义的交互特征,抑制无意义对齐的干扰,同时进一步自适应调整全局和局部依赖。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210364577.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据仓库
- 下一篇:一种西甜瓜的无土栽培装置