[发明专利]一种多模态场景图知识增强的对抗式多模态预训练方法在审
申请号: | 202210962059.3 | 申请日: | 2022-08-11 |
公开(公告)号: | CN115331075A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 余宙;罗同桉;俞俊;袁柳;刘弋锋;许胜新 | 申请(专利权)人: | 杭州电子科技大学;中国电子科技集团公司电子科学研究院 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06F40/30;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 场景 知识 增强 对抗 式多模态预 训练 方法 | ||
1.一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于包括如下步骤:
步骤(1):构建图像区域的特征表示及图像先验知识;
步骤(2):构建文本及跨模态先验知识;
步骤(3):构建多模态场景图;
步骤(4):构建对抗式噪声生成网络与多模态预训练网络;
步骤(5):多模态场景图知识增强的对抗式预训练。
2.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于步骤(1)所述的构建图像区域的特征表示及图像先验知识,实现如下:
对于数据集中的每一张图像,使用训练好的目标检测网络抽取图像中包含的一系列物体和它们对应的视觉特征、空间位置,并作为图像区域的特征表示;通过物体的空间位置计算得到图像区域之间的相对位置信息以及图像区域之间的相对空间关联信息,将相对位置信息并作和相对空间关联信息为图像的先验知识。
3.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于步骤(2)所述的构建文本及跨模态先验知识,实现如下:
对于数据集中的每组图文对,使用训练好的场景图生成器提取文本描述中的对象词集合、属性词集合和关系词集合,并根据在数据集上统计的共现频率记录每个对象词与其相关的属性词、关系词之间的语义关联,这些语义关联构成了文本先验知识;
对于数据集中的每组图文对,对每个图像区域都计算其目标类目对应的类别文本与每个对象词之间的语义相似度,并将语义相似度作为图像区域和文本词语之间的语义关联信息,并作为跨模态先验知识的表示。
4.根据权利要求1所述的一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于步骤(3)所述的构建多模态场景图,实现如下:
多模态场景图由图像场景图、文本场景图以及跨模态关联图构成;其中图像场景图中的顶点为图像区域,边的权重是图像先验知识的量化表示;文本场景图中的顶点是文本词语,边的权重是文本先验知识的量化表示;跨模态关联图的顶点是图像区域和文本词语,边的权重是跨模态先验知识的量化表示;最终的多模态场景图将由一个邻接矩阵表示。
5.根据权利要求1或2所述的一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于步骤(1)进一步实现如下:
对于数据集中的每一张图像,使用在Visual Genome数据集上训练好的Faster R-CNN目标检测网络抽取图像中包含的至多M个物体和它们对应的空间位置,其中第m个物体的空间位置表示为视觉特征表示为预测的物体类目表示为其中位置坐标和视觉特征将作为图像区域的特征表示;
通过任意两个区域框之间的相对位置进行建模来生成相对位置关系信息;将第i个对象的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示对象的中心点横纵坐标、宽、高;第i个对象和第j个对象之间的相对空间关系特征表示为具体公式如下:
通过任意两个区域框之间的IoU来表示相对空间关联信息,具体公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;中国电子科技集团公司电子科学研究院,未经杭州电子科技大学;中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210962059.3/1.html,转载请声明来源钻瓜专利网。