[发明专利]用于多模态数据处理的方法、装置、设备和介质在审
申请号: | 202310009740.0 | 申请日: | 2023-01-04 |
公开(公告)号: | CN115982596A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 柏松;严锐;王恒;张钧皓;薛楚慧;张文庆 | 申请(专利权)人: | 脸萌有限公司;北京有竹居网络技术有限公司 |
主分类号: | G06F18/22 | 分类号: | G06F18/22;G06V10/74;G06V10/40;G06N20/00 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 罗利娜 |
地址: | 英属开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 多模态 数据处理 方法 装置 设备 介质 | ||
1.一种用于多模态数据处理的方法,包括:
获取图像数据和文本数据;以及
利用特征提取模型提取所述图像数据的目标视觉特征和所述文本数据的目标文本特征,所述特征提取模型包括交替部署的跨模态编码部分和视觉编码部分,所述提取包括:
利用所述特征提取模型的第一跨模态编码部分对所述图像数据的第一中间视觉特征和所述文本数据的第一中间文本特征执行跨模态特征编码,得到第二中间视觉特征和第二中间文本特征;
利用所述特征提取模型的第一视觉编码部分对所述第二中间视觉特征执行视觉模态特征编码,得到第三中间视觉特征;
利用所述特征提取模型的第二跨模态编码部分对所述第三中间视觉特征和所述第二中间文本特征执行跨模态特征编码,得到第四中间视觉特征和第三中间文本特征;以及
基于所述第四中间视觉特征和所述第三中间文本特征来确定所述目标视觉特征和所述目标文本特征。
2.根据权利要求1所述的方法,还包括:
基于所述目标视觉特征和所述目标文本特征来确定所述图像数据与所述文本数据之间的匹配度。
3.根据权利要求1所述的方法,其中基于所述第四中间视觉特征和所述第三中间文本特征来确定所述目标视觉特征和所述目标文本特征包括:
利用所述特征提取模型的第二视觉编码部分对所述第四中间视觉特征执行视觉模态特征编码,得到第五中间视觉特征;以及
基于所述第五中间视觉特征和所述第三中间文本特征来确定所述目标视觉特征和所述目标文本特征。
4.根据权利要求1所述的方法,其中所述特征提取模型包括多对交替部署的跨模态编码部分和视觉编码部分,并且其中在两个相邻跨模态编码部分之间部署的视觉编码部分包括预定数目的视觉编码层。
5.根据权利要求1所述的方法,其中所述特征提取模型包括多对交替出现的跨模态编码部分和视觉编码部分,并且其中在第一对相邻的跨模态编码部分之间部署的视觉编码部分包括第一数目的视觉编码层,并且在第二对相邻的跨模态编码部分之间部署的视觉编码部分包括第二数目的视觉编码层,所述第一数目与所述第二数目不同。
6.根据权利要求1所述的方法,其中所述图像数据和所述文本数据被包括在所述特征提取模型的训练数据中,并且其中所述图像数据包括视频片段中的多个视频帧,其中提取所述目标视觉特征和所述文本特征包括:
通过掩码所述多个视频帧中至少一个视频帧的至少一个视觉块,生成多个掩码视频帧;以及
利用所述特征提取模型提取所述多个掩码视频帧的所述目标视觉特征和所述文本数据的所述目标文本特征。
7.根据权利要求6所述的方法,还包括:
基于所述目标视觉特征与所述目标文本特征来执行对所述特征提取模型的参数更新。
8.根据权利要求6所述的方法,其中生成所述多个掩码视频帧包括:
从所述多个视频帧中各个视频帧随机掩码至少一个视觉块,得到所述多个掩码视频帧。
9.根据权利要求6所述的方法,其中生成所述多个掩码视频帧包括:
利用预定掩码图来掩码所述多个视频帧中的各个视频帧,得到所述多个掩码视频帧,所述预定掩码图指示视频帧中的预定位置的至少一个视觉块要被掩码。
10.根据权利要求6所述的方法,其中生成所述多个掩码视频帧包括:
从所述多个视频帧中的各个视频帧选择至少一个视觉块进行掩码,得到所述多个掩码视频帧,所述多个视频帧中被掩码的视觉块的位置彼此不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸萌有限公司;北京有竹居网络技术有限公司,未经脸萌有限公司;北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310009740.0/1.html,转载请声明来源钻瓜专利网。