[发明专利]一种基于混合编码器的描述子翻译及相似度度量方法在审
申请号: | 201910630989.7 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110334363A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 纪荣嵘;胡杰;李新阳 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/22;G06K9/62 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 描述子 翻译 混合编码器 翻译器 重构 解码器 相似度度量 编码器 相似度 检索系统 目标特征 图像集中 图像检索 中转平台 成对的 训练集 源特征 置信度 度量 两路 映射 检索 壁垒 共享 衡量 学习 | ||
一种基于混合编码器的描述子翻译及相似度度量方法,涉及图像检索和描述子翻译。从用于训练的图像集中提取不同的手工或基于学习的多种描述子,以准备描述子翻译器的训练集,利用两两成对的特征对混合自编码器进行训练;训练从源特征到目标特征的映射的混合编码器,采用重构与翻译两路辅助训练解码器,编码器特有,解码器共享,得到翻译损失与重构损失;利用翻译损失与重构损失来度量两种描述子之间的相似度;对于待翻译的描述子,输入到相应的翻译器中,然后根据训练得到的翻译器对进行描述子翻译,所得结果置信度由相似度来衡量。突破基于不同描述子的检索系统间的检索壁垒,为不同系统间提供一个中转平台,便捷高效。
技术领域
本发明涉及图像检索和描述子翻译,尤其是涉及一种基于混合编码器的描述子翻译及相似度度量方法。
背景技术
在计算机技术飞速发展的时代,尤其是随着Flickr、微博等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如,Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达7.28亿,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过10年来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR,TextBased Image Retrieval),另一类是基于内容的图像检索(CBIR,Content Based ImageRetrieval)。
基于文本的图像检索方法始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,如图像中的物体、场景等,这种方式可以是人工标注方式,也可通过图像识别技术进行半自动标注。在进行检索时,用户可根据自己的兴趣提供查询关键字,检索系统根据用户提供的查询关键字找出那些标注有该查询关键字对应的图片,最后将查询的结果返回给用户。这种基于文本描述的图像检索方式由于易于实现,且在标注时有人工介入,所以其查准率也相对较高。在今天的一些中小规模图像搜索Web应用上仍有使用,但是这种基于文本描述的方式所带来的缺陷也是非常明显的:首先,这种基于文本描述的方式需要人工介入标注过程,使得它只适用于小规模的图像数据,在大规模图像数据上要完成这一过程需要耗费大量的人力与财力,而且随时不断外来的图像在入库时离不开人工的干预;其次,“一图胜千言”,对于需要精确的查询,用户有时很难用简短的关键字来描述出自己真正想要获取的图像;再次,人工标注过程不可避免的会受到标注者的认知水平、言语使用以及主观判断等的影响,因此会造成文字描述图片的差异。
图像描述子是图像检索当中必须处理的一种数据类型,并且是大多数现有视觉搜索系统的基础。在典型设置中,视觉搜索系统只能处理从离线图像集中提取的预定义特征。这样的设置阻止了在不同系统中重用某种不一样视觉特征。此外,在升级视觉搜索系统时,需要耗时的步骤来提取新特征并构建相应的索引,而先前的特征和索引被简单地丢弃。突破这样的设置无论如何都是非常有益的。
发明内容
本发明的目的在于为了解决在不同检索系统中,不同的描述子之间无法互相联系应用的问题,提供一种基于混合编码器的描述子翻译及相似度度量方法。
本发明包括以下步骤:
1)从用于训练的图像集中提取不同的多种描述子,以准备描述子翻译器的训练集,利用两两成对的特征对混合自编码器进行训练;
2)训练从源特征到目标特征的映射的混合编码器,采用重构与翻译两路辅助训练解码器,编码器特有,解码器共享,得到翻译损失与重构损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910630989.7/2.html,转载请声明来源钻瓜专利网。