[发明专利]基于自监督掩码模型和跨模态码本的文本行人搜索方法在审
| 申请号: | 202310093067.3 | 申请日: | 2023-02-10 |
| 公开(公告)号: | CN116343109A | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 吴一鸣;潘企何;高楠;梁荣华 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/75;G06V10/764;G06F17/15 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 孙家丰 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 监督 掩码 模型 跨模态码 文本 行人 搜索 方法 | ||
1.一种基于自监督掩码模型和跨模态码本的文本行人搜索方法,其特征在于,遮盖住部分比例的图片块、文本块,以及创建了一个跨模态的码本,包括以下步骤:
步骤1,读取数据集,将每一对匹配的文本描述和图片作为模型的数据输入;
步骤1.1,先将图片缩放到预定的大小,并执行水平翻转、随机增加高斯噪声等进行数据增强,然后将一张图片分成(h/p)*(w/p)个方形的小块,p为每个小块边长,h和w分别是图片的长和宽尺寸;
步骤1.2,然后随机选取部分图片块,并使用统一的掩码令牌进行遮盖;
步骤1.3,将文字描述输入到分词器中,将单词、词组转换为对应的编号;同时,随机选取部分文本块,并使用统一的掩码令牌进行遮盖;
步骤2,将处理好的经过掩码遮盖的图片和描述文本输入到两个模态的特征编码器中;具体包括:
步骤2.1,视觉主干网络EV,并加载在数据集ImageNet上预训练的模型参数,处理图像输入得到视觉特征FV;
步骤2.2,文本主干网络ET,同样加载预训练的模型参数,处理文本输入,得到文本特征FT;
步骤2.3,再分别将两个特征输入到映射层中,得到两个模态的全局特征;
步骤2.4,对于得到的两个模态的全局特征,计算CMPC损失函数和CMPM损失函数来度量匹配的文本图片之间的距离和不匹配的文本图片之间的距离大小关系;
其中CMPC损失函数表达如下:
Lcmpc=Ltpi+Lipt (4)
CMPM损失函数表达如下:
Lcmpm=Li2t+Lt2i (10)
其中xi为视觉特征,zi为文本特征,Wj为权重矩阵,yi,j代表输入是否为匹配的图文对,∈为一个很小的正数,防止除0;
步骤3,将步骤2中经过特征提取主干网络得到的视觉特征FV和文本特征FT输入到跨模态码本中,视觉特征FV的维度大小为(h/p)*(w/p)*D,文本特征FT的维度大小为L*D,L为文本的长度,D为视觉特征或文本特征的通道数,视觉特征和文本特征的通道数相同;具体包括:对步骤2得到的特征进一步处理,具体操作按以下步骤实施;
步骤3.1,视觉特征FV和文本特征FT一共有((h/p)*(w/p)+L)个特征向量,这些特征向量的通道数和码本中的特征向量的通道数相同,然后计算码本中特征向量与所有文本特征和视觉特征的距离,将视觉特征FV和文本特征FT都用在码本中找到与之相对应的、距离最近的特征向量进行替换,查找方法如下公式:
其中zi代表视觉特征FV和文本特征FT,ci代表码本中的特征向量,K代表码本中特征向量的个数;
步骤3.2,使用码本中的特征向量替换原来视觉特征FV和文本特征FT中的向量后,得到新的视觉特征FV2和新的文本特征FT2;因为替换的特征向量是离散的,且替换过程是不可微的,所以需要梯度估计straight-through来将将梯度反向传播到前面的模块,具体方法如下公式所示:
其中sg(·)代表停止传播梯度,l2代表归一化操作;
步骤3.3,替换完输入的特征向量之后,要同步动量更新码本中的特征,使用更新的公式如下:
其中λmom是更新码本的权重,ch为码本中的特征向量;
步骤4,重建输入的图片和文本:
步骤4.1,图像解码器用的是单层的反卷积网络,将图片恢复成输入的大小和通道数,然后和原图对比,并计算重建损失函数;
步骤4.2,文本选用的是经过文本编码器ET预训练的文本分类器(训练阶段进行微调),将特征通过文本分类器的最后一层的线性层Linear层进行分类,预测文本和输入之间的差异,并计算分类损失函数;
其中ΩT为计算xT中有多少个token的函数,xT为视觉特征,yT为文本正确标签;
步骤5,根据步骤2、步骤3、步骤4中的三种损失函数,利用反向传播算法和梯度下降算法,对模型进行优化;具体包括:
步骤5.1,根据实际输入与期望输出,得到总体的误差公式,其公式为:
Ltotal=Lalign+λ1Lrecon+λ2Lcodebook (17)
式中Lalign是计算两个模态对齐程度的CMPC和CMPM损失函数,Lrecon是模型计算重建输入的文本和图片与最开始没有被遮盖的文本和图片之间的差异的损失函数;Lcodebook是为了优化跨模态码本,计算更换的特征片段和输入的特征片段之间的差异;λ1和λ2是两个损失函数Lrecon和Lcodebook在整个损失函数中所占的权重;
步骤5.2,利用反向传播算法和梯度下降算法优化模型参数;
步骤6,测试模型时选用经过主干网络和映射层后的特征,两个模态的特征分别作为输入和查询集,通过计算余弦相似度、然后进行排序,得到对应的查询结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310093067.3/1.html,转载请声明来源钻瓜专利网。





