[发明专利]基于自监督掩码模型和跨模态码本的文本行人搜索方法在审
| 申请号: | 202310093067.3 | 申请日: | 2023-02-10 |
| 公开(公告)号: | CN116343109A | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 吴一鸣;潘企何;高楠;梁荣华 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/75;G06V10/764;G06F17/15 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 孙家丰 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 监督 掩码 模型 跨模态码 文本 行人 搜索 方法 | ||
一种基于自监督掩码模型和跨模态码本的文本行人搜索方法,包括:先对输入的文本和图片进行遮盖,然后输入到特征提取主干网络中,得到视觉特征Fsubgt;V/subgt;和文本特征Fsubgt;T/subgt;,然后将视觉特征Fsubgt;V/subgt;和文本特征Fsubgt;T/subgt;输入到映射层,得到图片全局特征Fsubgt;V1/subgt;和文本全局特征Fsubgt;T1/subgt;,然后进行对齐。同时将视觉特征Fsubgt;V/subgt;和文本特征Fsubgt;T/subgt;输入到跨模态码本中,将视觉特征Fsubgt;V/subgt;和文本特征Fsubgt;T/subgt;用码本中与之最接近的特征进行替换,然后分别将替换后的特征输入到图片解码器和文本的分类网络中,最后将结果和原始的输入进行对比。本发明既能提升模型的特征学习的能力,又能提升模型对两个模态特征对齐的能力。
技术领域
本发明基于跨模态检索领域,特别涉及一种是使用基于掩码和跨模态码本的特征对齐方式的方法。
背景技术
基于文本的行人搜索旨在将文本描述查询与正确的行人图像进行匹配,这在监控系统,活动分析和智能相册方面具有巨大的潜力。与图像查询行人重识别(也称为基于图像的行人重识别)相比,文本描述在大多数情况下更容易访问,这使得基于文本的人员搜索在近年来变得流行起来。解决跨模态检索的方法主要分成两类,一类是学习特征表示,另一类是提取两个模态特征,然后进行特征对齐。
为了更好地从图片和文本中学习到合适的特征,有使用生成对抗网络和文本描述对人物图像进行着色(事先灰度处理);也有利用自监督学习方法通过CLIP获得到先验知识,然后传递到跨模态动量对比学习框架中。同时,为了解决两个模态之间的差异,也有很多工作使用注意力机制来帮助实现文本和图像特征之间的对齐。这会需要使用预训练物体检测模型或者是通过人为设定区域方式获取图片中人的各个位置的图片信息,然后将对应的图片信息和相对应的文本信息共同输入到注意力模块中,从而实现特征对齐。这无疑会对训练和测试带来很大的计算压力。为了更好的实现跨模态的行人检索准确率,解决两个模态之间的特征对齐问题和特征学习问题就十分重要。
发明内容
为了克服现有技术在跨模态特征学习和对齐上存在的不足,本发明提供了一种将掩码模型和跨模态码本结合的方法来增强模型特征学习和对齐能力,进一步提高了跨模态行人检索的准确度。
为了实现上述目的,本发明的一种基于自监督掩码模型和跨模态码本的文本行人搜索方法,采用的技术方案为:
步骤1,读取数据集,将每一对匹配的文本描述和图片作为模型的数据输入;
步骤1.1,先将图片缩放到预定的大小,并执行水平翻转、随机增加高斯噪声等进行数据增强,然后将一张图片分成(h/p)*(w/p)个方形的小块,p为每个小块边长,h和w分别是图片的长和宽尺寸;
步骤1.2,然后随机选取部分图片块,并使用统一的掩码令牌进行遮盖;
步骤1.3,将文字描述输入到分词器中,将单词、词组转换为对应的编号;同时,随机选取部分文本块,并使用统一的掩码令牌进行遮盖;
步骤2,将处理好的经过掩码遮盖的图片和描述文本输入到两个模态的特征编码器中;具体包括:
步骤2.1,视觉主干网络EV,并加载在数据集ImageNet上预训练的模型参数,处理图像输入得到视觉特征FV;
步骤2.2,文本主干网络ET,同样加载预训练的模型参数,处理文本输入,得到文本特征FT;
步骤2.3,再分别将两个特征输入到映射层中,得到两个模态的全局特征;
步骤2.4,对于得到的两个模态的全局特征,计算CMPC损失函数和CMPM损失函数来度量匹配的文本图片之间的距离和不匹配的文本图片之间的距离大小关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310093067.3/2.html,转载请声明来源钻瓜专利网。





