[发明专利]一种基于文字表述的行人检索方法有效
| 申请号: | 202110311957.8 | 申请日: | 2021-03-24 |
| 公开(公告)号: | CN113157974B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 朱继;杨少毅;褚智威;石光明;李甫;牛毅 | 申请(专利权)人: | 西安维塑智能科技有限公司 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06F16/783;G06V20/40;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 西安智萃知识产权代理有限公司 61221 | 代理人: | 王畅阳 |
| 地址: | 710018 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文字 表述 行人 检索 方法 | ||
1.一种基于文字表述的行人检索方法,其特征在于包括以下步骤:
步骤1:在全局(global-grained)神经网络分支中,将包含行人的图像和表述行人的文字输入全局特征提取网络,提取图像和文字的全局特征;
步骤2:在细粒度(fine-grained)神经网络分支中,将行人图像用人体图像分割算法分割成局部区域,并将文字解析成多个表述局部身体衣着的词组,通过引入关注度机制的神经网络,提取相互对应的细粒度图像和文字特征;
步骤3:在粗粒度(coarse-grained)神经网络分支中,基于人体身体结构的位置关系构建图卷积神经网络,将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神经网络中,将人体结构的先验信息嵌入到粗粒度图像和文字特征;
步骤4:分别计算步骤1-3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和,作为图像和文字的最终相似度;
步骤5:比较文字表述和行人图像库中每张行人图像的余弦相似度,选取相似度最高的行人图像作为行人检索的匹配结果;
所述步骤1具体包括以下步骤:
步骤1.1:将行人图像输入ResNet-50卷积网络得到初始图像特征;
步骤1.2:将文字表述中的每个单词用word2vec方法生成词嵌入特征,并将生成的词嵌入特征输入双向长短期记忆网络,提取初始文字特征;
步骤1.3:通过一层全连接层将初始图像特征和初始文字特征分别映射到共享的语义特征空间,从而得到最终用于比较的全局图像特征xg和文字特征zg;
步骤1.4:采用三元组损失函数训练全局神经网络分支,具体损失函数Lg定义如下式:
其中分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative)样本的全局特征向量,分别表示文字锚样本、文字正样本和文字负样本的全局特征向量;
所述步骤2具体包括以下步骤:
步骤2.1:使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部,得到对应这五个身体部位的0-1二值分割掩膜图,分别将每个身体部位对应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层,得到对应身体不同部位的细粒度图像特征
步骤2.2:使用自然语言处理工具NLTK将文字表述解析为表述身体不同部位衣着的N个词组,输入双向长短期记忆网络,提取得到词组特征向量矩阵P=[p1;L;pN]∈RN×d,其中d表示每个词组向量的长度;
步骤2.3:分别构建与头、躯干、手臂、腿部、脚部这五个身体部位相关的名词词汇库,将步骤2.2解析出的每个词组中的关键名词与五个身体部位词汇中的单词一一比较,通过提取词嵌入向量计算向量间的余弦相似度;
步骤2.4:对于文字表述解析出的每个词组,分别在每个身体部位的词汇库中选取与该词组中的关键名词余弦相似度最高的单词,并以此构建文字表述中的N个词组与五个身体部位的语义关联度矩阵S∈R5×N,并进行归一化计算得到各个词组相对于身体不同部位的关注度权重矩阵A=softmax(S);
步骤2.5:引入关注度机制,通过把关注度权重矩阵A和词组特征P相乘,将词组特征聚合为分别关联身体不同部位的文字特征;
步骤2.6:将利用关注度机制聚合后的文字特征通过一个全连接层映射到共享的语义特征空间,得到最终用于和图像特征进行比较的关联身体不同部位的细粒度文字特征
步骤2.7:采用三元组损失函数训练细粒度神经网络分支,具体损失函数Lf定义如下式:
其中分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative)样本的和第i个身体部位相关联的细粒度特征向量,分别表示文字锚样本、文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量;
所述步骤3具体包括以下步骤:
步骤3.1:在粗粒度神经网络分支中,基于人体各部位的位置关系构建图结构,使得头、手臂、腿部和躯干相邻接,脚部和腿部相邻接,得到二值图邻接矩阵,并根据该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network);
步骤3.2:将步骤2中提取的关联身体不同部位的细粒度图像特征和细粒度文字特征分别输入各自的图卷积神经网络,并经过一层全连接层最终映射为嵌入人体结构信息的粗粒度图像特征xc和文字特征zc;
步骤3.3:采用三元组损失函数训练粗粒度神经网络分支,具体损失函数Lc定义如下式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安维塑智能科技有限公司,未经西安维塑智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110311957.8/1.html,转载请声明来源钻瓜专利网。





