[发明专利]基于变分蒸馏的多模态联合表示学习方法及系统在审
| 申请号: | 202210062288.X | 申请日: | 2022-01-19 |
| 公开(公告)号: | CN114841335A | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 张亚伟;王晶晶;李寿山 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/774;G06V10/778;G06V10/82;G06F16/35 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李柏柏 |
| 地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 蒸馏 多模态 联合 表示 学习方法 系统 | ||
1.一种基于变分蒸馏的多模态联合表示学习方法,其特征在于,包括以下步骤:
部署学生模型和教师模型,所述教师模型包括文本教师模型和图像教师模型,所述学生模型包括多模态数据统一模块,输入原始多模态数据,其中所述原始多模态数据包括原始文本模态数据和原始图像模态数据,将原始文本模态数据和原始图像模态数据输入至多模态数据统一模块,得到输入形式相同的文本模态输入和图像模态输入,并对文本模态输入和图像模态输入进行归一化操作;
所述学生模型包括模态联合表示模块,将归一化操作后的文本模态输入和图像模态输入分别输入至模态联合表示模块,得到所述学生模型的文本输出和图像输出,同时将原始文本模态数据和原始图像模态数据分别输入至文本教师模型和图像教师模型,得到教师模型的文本输出和图像输出;
利用变分互信息表征所述学生模型和教师模型对应的文本输出和图像输出之间的相关性,并将所述文本输出和图像输出利用蒸馏损失函数进行联合蒸馏训练,以使学生模型同时获得匹配所述文本教师模型和图像教师模型的能力。
2.根据权利要求1所述的基于变分蒸馏的多模态联合表示学习方法,其特征在于:所述多模态数据统一模块部署于所述模态联合表示模块的前端,利用所述多模态数据统一模块将原始文本模态数据和原始图像模态数据整理成相同的输入形式,得到文本模态输入和图像模态输入。
3.根据权利要求1所述的基于变分蒸馏的多模态联合表示学习方法,其特征在于:将原始文本模态数据和原始图像模态数据整理成相同的输入形式,得到文本模态输入和图像模态输入,包括:
在原始文本模态数据中增加[CLS]符号和[SEP]符号,同时在原始文本模态数据中的句子的末尾增加[DIS]符号,并通过词向量矩阵得到文本模态输入;
将原始图像模态数据分割成若干图片块,将每个图片块拉伸成一维向量,在一维向量的开始位置和末尾位置增加[CLS]符号和[DIS]符号,并通过维度缩放得到与文本模态输入形式相同的图像模态输入。
4.根据权利要求1或2所述的基于变分蒸馏的多模态联合表示学习方法,其特征在于:所述模态联合表示模块包括MobileBERT模型,所述MobileBERT模型包括24层transformer模型,每层transformer模型中加入线性层。
5.根据权利要求1所述的基于变分蒸馏的多模态联合表示学习方法,其特征在于:所述蒸馏损失函数为所述文本教师模型的损失函数和所述图像教师模型的损失函数的总和。
6.一种基于变分蒸馏的多模态联合表示学习系统,其特征在于,包括:
学生模型,所述学生模型包括多模态数据统一模块和模态联合表示模块,输入原始多模态数据,其中所述原始多模态数据包括原始文本模态数据和原始图像模态数据,将原始文本模态数据和原始图像模态数据输入至多模态数据统一模块,得到输入形式相同的文本模态输入和图像模态输入,并对文本模态输入和图像模态输入进行归一化操作,将归一化操作后的文本模态输入和图像模态输入分别输入至模态联合表示模块,得到所述学生模型的文本输出和图像输出;
教师模型,所述教师模型包括文本教师模型和图像教师模型,将原始文本模态数据和原始图像模态数据分别输入至文本教师模型和图像教师模型,得到教师模型的文本输出和图像输出;
模态统一蒸馏模块,所述模态统一蒸馏模块用于利用变分互信息表征所述学生模型和教师模型对应的文本输出和图像输出之间的相关性,并将所述文本输出和图像输出利用蒸馏损失函数进行联合蒸馏训练,以使学生模型同时获得匹配所述文本教师模型和图像教师模型的能力。
7.根据权利要求6所述的基于变分蒸馏的多模态联合表示学习系统,其特征在于:所述多模态数据统一模块部署于所述模态联合表示模块的前端,利用所述多模态数据统一模块用于将原始文本模态数据和原始图像模态数据整理成相同的输入形式,得到文本模态输入和图像模态输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210062288.X/1.html,转载请声明来源钻瓜专利网。





