[发明专利]一种无监督可见光与红外双向跨模态行人搜索方法在审
申请号: | 202111423613.2 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114154017A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 项学智;吕宁 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06V20/52;G06V20/40;G06V40/10;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 可见光 红外 双向 跨模态 行人 搜索 方法 | ||
本发明属于计算机视觉技术领域,具体涉及一种无监督可见光与红外双向跨模态行人搜索方法。本发明设计了模态自适应动态视觉Transformer网络,通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求;设计了查询引导的无监督行人建议生成模块,并利用基于对比学习的双向跨模态匹配损失函数,实现了无监督的可见光‑红外双向跨模态行人搜索。本发明解决了现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,能够实现可见光‑红外双向跨模态行人搜索,即,给定可见光行人图像搜索到出现对应行人的红外场景图像并获取其所在位置,给定红外行人图像搜索到出现对应行人的可见光场景图像并获取其所在位置。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种无监督可见光与红外双向跨模态行人搜索方法。
背景技术
现如今,视频摄像头已广泛部署于公共场所如车站、机场、商场、学校等,形成了庞大的监控网络。近几年来,行人搜索逐渐成为计算机视觉在视频监控领域的重要应用之一。值得注意的是,行人搜索处理的是摄像机拍摄的整幅图像,采集图像的各摄像头之间通常没有视野重叠。行人检测、行人重识别和行人搜索是不同的;其中,行人检测是无差别地在场景图像中定位出行人的位置,不同行人之间没有区别;行人重识别是给定查询的行人图像,在包含众多行人图像的图库中搜索出对应身份的行人图像,不同行人的身份不同;行人搜索是给定查询的行人图像,在包含众多场景图像的图库中搜索到出现对应行人的场景图像并获取其所在位置,即同时包含检测和重识别两个过程,更适用于实际应用。
现有的行人搜索方法针对的是可见光图像。然而,实际应用中,需要在弱光或无光的不良光照条件下检测并重识别出特定身份的行人。在这种情况下,现有的基于可见光的行人搜索方法很难获取到有效的行人外观特征。另外,行人搜索数据集的标注问题限制了当前有监督方法的实用性和扩展性。
发明内容
本发明的目的在于解决现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,提供能够实现可见光-红外双向跨模态行人搜索的一种无监督可见光与红外双向跨模态行人搜索方法。
一种无监督可见光与红外双向跨模态行人搜索方法,包括以下步骤:
步骤1:分别采集可见光和红外查询行人图像和场景图像数据,并制作适用于无监督方法的可见光-红外双向跨模态行人搜索数据集;
步骤2:设计模态自适应动态视觉Transformer网络作为特征提取器,输入为可见光和红外的图库场景图像和查询行人图像,输出为相应模态的特征映射;
步骤3:设计查询引导的无监督行人建议生成模块,将图库场景图像和查询行人图像的特征映射同时输入给该模块,经过处理得到预测的场景行人特征映射;
步骤4:设计双向跨模态匹配模块,将查询行人图像的特征映射和预测的场景行人特征映射经过池化层和模态自适应动态视觉Transformer处理后,输入给双向跨模态匹配损失函数,通过无监督方式进行网络优化。
进一步地,所述步骤2中设计的模态自适应动态视觉Transformer网络由堆叠的模态自适应动态视觉Transformer构成;模态自适应动态视觉Transformer中包括可切换归一化层、多头注意力层和1X1动态卷积层;其输入为线性嵌入和模态嵌入的组合,能够根据模态的不同自适应地选择归一化方式,并动态地调整线性映射部分的结构。
进一步地,所述步骤3中设计的查询引导的无监督行人建议生成模块,包括可切换归一化层、查询引导注意力层、无监督行人建议框层;在查询引导注意力层中,步骤2得到的图库场景图像特征映射在输入给卷积操作之前,分别经过不同权值矩阵进行加权后做逐像素点积,并通过softmax计算;之后,以步骤2得到的查询行人特征映射作为卷积核,在经过处理的图库场景图像特征映射上进行卷积操作,得到查询引导的注意力映射;无监督行人建议框层根据查询引导的注意力映射和步骤2得到的图库场景图像特征映射得到场景图像中预测的行人特征映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111423613.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型丹系后备母猪诱情方式
- 下一篇:定时器管理方法、装置、设备及存储介质