[发明专利]一种基于多模板提示学习的视觉分类方法和装置有效
| 申请号: | 202310680502.2 | 申请日: | 2023-06-09 |
| 公开(公告)号: | CN116416480B | 公开(公告)日: | 2023-08-25 |
| 发明(设计)人: | 杨舒;王生进 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/82;G06V10/774;G06N3/0895;G06N3/09 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张金玲 |
| 地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模板 提示 学习 视觉 分类 方法 装置 | ||
1.一种基于多模板提示学习的视觉分类方法,其特征在于,所述方法包括:
获取待分类的视频;
对于多个提示模板中的每一个提示模板,基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集;其中,将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本;
将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中,得到所述视频在所述提示模板下的类别概率分布;
利用所述视频在多个提示模板下的类别概率分布,确定所述视频的视觉分类结果;
其中,所述多个提示模板和所述视觉语言编码模型,是利用半标注的视觉分类样本集,对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的;
所述改进的视觉语言预训练模型为是在视觉语言预训练模型中的图像编码器后面接入帧融合模块而得到;所述帧融合模块用于对输入的连续视频帧的视觉特征进行特征融合;
所述多个预设提示模板的生成过程,包括:
基于给定提示模板格式,生成多个初始提示模板;其中,所述给定提示模板格式为提示模板由多个提示字符位和一个类别标志位组成;所述多个初始提示模板存在提示字符位个数和/或类别标志位位置的差异;
为每一个所述初始提示模板中每一个提示字符位嵌入一个单词得到所述多个预设提示模板;
所述多个提示模板和所述视觉语言编码模型,是利用半标注的视觉分类样本集,对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的,包括:
基于所述视觉语言预训练模型,利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习,以优化多个所述预设提示模板得到多个第一提示模板;
基于多个所述第一提示模板,利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习,以优化所述帧融合模块得到所述视觉语言编码模型;
基于所述视觉语言编码模型,利用所述视觉分类样本集包含的第三样本集对多个所述第一提示模板进行全监督学习,以微调多个所述第一提示模板得到多个所述提示模板;
其中,所述第一样本集、所述第二样本集和所述第三样本集均是对预存的全类别标注视频集进行处理得到的;
所述第一样本集中的样本为携带类别标注的视频中间帧;
所述第二样本集中部分样本为携带类别标注的连续视频帧,部分样本为不携带类别标注的连续视频帧;
所述第三样本集中的样本为携带类别标注的连续视频帧。
2.根据权利要求1所述的基于多模板提示学习的视觉分类方法,其特征在于,为任一初始提示模板中的任一提示字符位嵌入一个单词,包括:
初始化待嵌入单词;
利用单词表,确定所述待嵌入单词的编码序列号;
将所述编码序列号代入语言嵌入模型中,得到所述待嵌入单词的编码特征;
将所述编码特征嵌入所述任一初始提示模板中的所述任一提示字符位。
3.根据权利要求2所述的基于多模板提示学习的视觉分类方法,其特征在于,将一个类别名称嵌入一个提示模板等同于将一个类别名称嵌入一个提示模板的类别标志位;
所述将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中,得到所述视频在所述提示模板下的类别概率分布,包括:
利用所述视觉语言编码模型的图像编码器,确定所述视频的连续视频帧的融合视觉特征;
利用所述视觉语言编码模型的文本编码器,确定所述候选文本集中每一个候选文本的文本特征;
将所述融合视觉特征与所述候选文本集中每一个候选文本的文本特征分别进行特征相似度比对,得到比对结果;
将所述比对结果记为与所述候选文本集中每一个候选文本关联的类别名称即为所述视频的类别名称的概率;
基于所述概率,得到所述视频在所述提示模板下的类别概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310680502.2/1.html,转载请声明来源钻瓜专利网。





