[发明专利]一种基于transformer的孪生网络目标搜索系统有效
申请号: | 202310449364.7 | 申请日: | 2023-04-25 |
公开(公告)号: | CN116188804B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 郑艳伟;何国海;于东晓;李峰 | 申请(专利权)人: | 山东大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06N3/0475;G06N3/0455;G06N3/08 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 付秀颖 |
地址: | 266200 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 孪生 网络 目标 搜索 系统 | ||
1.一种基于transformer的孪生网络目标搜索系统,其特征在于,包括以下步骤:
(1)采集图像数据,作为待搜索图;并在部分待搜索图中提取出感兴趣目标,作为查询图,设计孪生网络目标搜索训练模型;
(1.1)采集n张搜索图记为I1,I2,…,In,每张搜索图默认大小为224*224,n张搜索图中目标个数分别为mb,b∈(1,2,…,n)切割出查询图为将每张查询图由原尺寸放缩到大小为56*56,记为然后对每张查询图进行人工分类,把同一个目标的查询图分为一类,假设可以将查询图分为count类,记为cnt1,cnt2,…,cncount,对应count个文件夹将每张查询图放入对应类的文件夹中,然后建立一个字典dict,key值对应为每一张搜索图,记为dict[Ii],dict[I2],…,dict[In],dict中的每个key值对应的value为当前搜索图中存在所有目标的类名;
(1.2)设计孪生网络目标搜索模型,模型特征提取主干分为vit1、vit2,vit1用来提取搜索图的特征;然后选择16张查询图,选择规则为:查询当前搜索图的索引index,从不是当前索引的类别文件夹中随机选择4张查询图,从索引的所有类别文件中共选择12张查询图,其中每个类别文件夹随机选取3张查询图,若可以选择出12张查询图,则将这16张56*56的查询图以随机顺序拼接为一张224*224的图片;vit2用来提取“查询拼接图”中对应一系列查询图的特征,vit1和vit2进行权值共享;
(1.2.1)添加DETR目标检测头,可以从每张待搜索图中检测并框出每一个目标,并且获得每个目标的坐标;
(1.2.2)数据分为n组,每组为(Iu,Dv),u∈{1,2...,n},v∈{1,2...,n},其中Iu为第u张搜索图,Dv为第v张查询拼接图;Iu通过vit1提取特征Zu,然后通过DETR目标检测头,得到搜索图中mb个目标的特征向量Z′u1,Z′u2,...,Z′um,将m个目标的特征向量放缩到56*56*384的特征维度,对应特征向量为Zu1,Zu2,...,Zum,Dv通过vit2提取特征Zv,由于Dv是由16张56*56大小的查询图拼接而成,即可以根据固定的坐标位置提取特征得到对应的16个特征向量Zv1,Zv2,...,Zv16;
(1.2.3)对于搜索图产生的特征向量Zu1,Zu2,...,Zum,查询拼接图产生的特征向量Zv1,Zv2,...,Zv1,两两比较,二者属于同一类别时,定义为正样本,二者不属于同一类别时,定义为负样本,采用余弦距离公式定义损失函数:
dloss1=1-cosZuδ,Zvη} (公式1);
dloss2=1+cosZuδ,Zvη} (公式2);
dloss=dloss1+ dloss2 (公式3);
u∈{1,2,...,n},v∈{1,2,...,n},δ∈{1,2,...,m},η∈{1,2,...16};Zuδ为搜索图u的第δ目标的特征向量;Zvη为查询拼接图v的第η个特征向量;
当输入网络的为正样本时,采用公式1计算损失,需要使两个特征向量Zuδ,Zvη之间的距离越小,导致dloss1越小,当输入网络的为负样本时,采用公式2计算损失,需要使两个特征向量Zuδ,Zvη之间的距离越大,导致dloss2越小,最终使dloss越小;
(1.3)vit1提取的特征通过DETR目标检测头获得一个obj_loss,DETR目标检测头的作用是预测搜索图中的每个目标的位置,vit1与vit2提取的特征共同获得一个sch_loss,obj_loss与sch_loss通过比例关系进行组合;
(2)进行摄像头区域选择,选择摄像头群组确定搜索区域,输入待搜索目标图片;
(3)搜索任务启动,通过视频取帧的方式从摄像头内等时间间隔地获取场景图片,图片通过模型进行检测,检测出每一个目标,将目标与待搜索图做特征比较,计算目标匹配度,取最大值,若匹配度超过设定阈值,将搜索图片的序号i加入结果队列;
(4)若结果队列有新纪录产生,则将当前检测图片存入后台服务器设置好的静态资源目录下,并将信息存入数据库,前端界面根据需求从数据库筛选显示对应目标的搜索结果信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310449364.7/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法