[发明专利]一种大规模图片集分布式近似搜索的方法在审

专利信息
申请号: 201710333386.1 申请日: 2017-05-12
公开(公告)号: CN107315765A 公开(公告)日: 2017-11-03
发明(设计)人: 胡海峰;吕成钢 申请(专利权)人: 南京邮电大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/62
代理公司: 南京知识律师事务所32207 代理人: 高玲玲
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 大规模 图片集 分布式 近似 搜索 方法
【说明书】:

技术领域

发明属于机器学习领域,主要涉及在大规模图片集分布式地存储数据和训练算法模型的近似搜索方法,以及利用哈希技术对图片进行编码。

背景技术

对图片的近似搜索是近邻查询邻域中的一个重要的应用。在大数据时代,图片数据通常具有两个特点:第一,数据的规模非常大;其次,图片本身的特征维度很高。在现实中,图片数据通常是以分布式的方式存储或采集,所以分布式的近似搜索方法对海量高维图片高效准确地近邻查询对机器学习、信息检索、计算机视觉等领域的研究有着非常重要的应用价值。

在图片近似搜索的应用中,现在最为流行的方法是基于哈希技术的近似近邻搜索。哈希技术的本质就是把原始高维特征的数据映射到汉明空间中形成二进制编码,通过比较各数据间二进制编码的汉明距离来确定近邻关系。现有的哈希算法大都是以集中式的方法训练算法模型,并对新的查询图片搜索近邻。所谓的集中式方法,就是指对训练数据的存储,和利用数据训练算法模型的过程都是在一个服务器结点上进行。比较经典的集中式哈希算法如局部敏感哈希算法(LSH),通过将数据的近似搜索问题转化为寻找汉明距离较小的二进制编码来解决,这样可以具有更为简单的索引结构和使用更少的存储空间。但是LSH为了同时保证精度和召回率,需要构建多个哈希表,这样会导致查询时间和存储开销的大幅增加,使得算法的性能下降。

随之又出现了可以产生更为高效编码的集中式哈希算法,比如谱哈希(SH)算法,锚哈希(AGH)算法。但是这些算法在寻找近邻图片时过于片面,它们只考虑了图片在数据集中的实际存储位置,而没有考虑图片可能具有的语义标记信息,这使得这些算法在图片近似搜索中的性能较差。然而在现实中,很多图片具有语义标记信息,不同的类标记信息代表图片属于不同的类别。比如两张图片在数据集中可能实际存储距离较远,但是它们具有相同的类标记“天空”,那么这两张图片也是近似图片。

上面所述的集中式哈希算法,只用一个服务器结点存储所有的数据,并在单个结点上训练算法模型。但是在大数据时代,当图片数据集的规模非常大时,集中式的算法通常会存在如下的问题:一、单个计算结点不可能把成百上千万计的图片数据加载进内存进行训练;二、在现实应用中,图片数据通常是分布式地存储或采集,把这些数据汇聚到一个结点会产生很大的通信和计算开销。所以用单个服务器结点集中式地训练算法模型已不再适合。

发明内容

本发明的目的在于提供一种应用于大规模图片数据集中的引入语义一致性的分布式近似图片搜索方法。主要解决图片的分布式近似搜索问题并将近似的图片通过哈希技术映射成相同或相似的二进制编码。本发明主要包括两个部分:分布式地训练算法模型的过程和查询图片近似搜索的过程。

为此目的,本发明采用的技术方案为一种大规模图片集分布式近似搜索的方法,包括如下步骤:

步骤1:输入图片数据集样本矩阵X,X是n*d维的矩阵,n是图片的个数,d是图片特征的维度,和对应的语义类标记矩阵Y,Y是n*c维的矩阵,n是样本个数,c是类标记的个数,假设有I个服务器结点,图片集中的样本矩阵均匀分为I部分:X=[X1,X2,...,XI],类标记矩阵也相应地分为I部分:Y=[Y1,Y2,...,YI],每一部分数据和对应的标记存储在一个结点上;

步骤2:从各服务器结点的图片样本中随机抽取一部分图片作为抽样图片集,计算图片和抽样图片之间的相似度;

步骤3:引入语义一致性构建目标函数表达式O(Ai),其中Ai是d*d维的方阵,d是图片特征的维度,i代表第i个服务器结点,Ai是在编码阶段需要的转换矩阵;

步骤4:在各结点中,对于每一个图片样本x,用转换矩阵Ai乘以图片样本x和抽样图片之间的相似度,得到了引入语义一致性之后的优化相似度,然后再利用哈希技术进行编码,将图片由原始的d维特征压缩映射成k维的二进制编码;

步骤5:对于新的查询图片,分别输入到各结点中,并行计算出此查询图片的二进制编码,并通过加权模型得到各结点中查询图片的汉明距离向量;

步骤6:合并各结点的汉明距离向量,得到查询图片相对于图片集中所有图片的汉明距离向量,如果图片在汉明距离向量中对应位置的元素值小于设定的汉明距离门限阈值r,以此图片作为查询图片的近似图片。

进一步,上述利用哈希技术进行编码具体包含以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710333386.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top