[发明专利]针对视觉和语言的跨模态处理在审
| 申请号: | 202110247301.4 | 申请日: | 2021-03-05 |
| 公开(公告)号: | CN115017911A | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 刘蓓;傅建龙 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京世辉律师事务所 16093 | 代理人: | 李峥宇 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 针对 视觉 语言 跨模态 处理 | ||
根据本公开的实现,提出了一种用于跨模态处理的方案。在该方案中,根据目标模型中的视觉特征提取子模型,提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典,确定与该组视觉特征对应的一组视觉语义特征。根据目标模型中的文本特征提取子模型,提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征,训练目标模型以用于确定输入文本和输入图像之间的关联信息。以此方式,可以促进经训练的目标模型在各种视觉‑语言任务中准确且快速地提供结果。
背景技术
在人工智能领域中,图像处理和自然语言处理已经得到显著发展,并且具有广泛应用。随之而来,出现了针对视觉和语言的跨模态处理需求,以用于各种视觉-语言任务。这样的视觉-语言任务例如包括图像检索、文本检索、视觉问答(VQA)和自然语言的视觉推理(NLVR)等。目前,已经提出了一些跨模态处理技术,以用于这些视觉-语言任务。
发明内容
根据本公开的实现,提出了一种用于跨模态处理的方案。在该方案中,根据目标模型中的视觉特征提取子模型,提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典,确定与该组视觉特征对应的一组视觉语义特征。根据目标模型中的文本特征提取子模型,提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征,训练目标模型以用于确定输入文本和输入图像之间的关联信息。以此方式,可以促进经训练的目标模型在各种视觉-语言任务中准确且快速地提供结果。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了能够实施本公开的多个实现的计算设备的框图;
图2示出了根据本公开的一些实现的训练视觉-语言模型的架构图;
图3示出了根据本公开的一些实现的视觉语义嵌入层的示意图;
图4示出了根据本公开的一些实现的基于多个通用任务的预训练的示意图;
图5示出了根据本公开的一些实现的通过训练视觉-语言模型而获得的视觉语义词典的示例;
图6示出了根据本公开的一些实现的应用视觉-语言模型的架构图;
图7示出了根据本公开的一些实现的训练模型的方法的流程图;以及
图8示出了根据本公开的一些实现的应用模型的方法的流程图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110247301.4/2.html,转载请声明来源钻瓜专利网。





