[发明专利]一种基于区域敏感得分图谱及多实例学习的图片属性探测方法在审
申请号: | 201710714926.0 | 申请日: | 2017-08-19 |
公开(公告)号: | CN107563418A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 何小海;陈祥;张杰;卿粼波;苏婕;王正勇;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 敏感 得分 图谱 实例 学习 图片 属性 探测 方法 | ||
技术领域
本发明设计了一种基于区域敏感得分图谱及多实例学习的图片属性探测方法,涉及深度学习、计算机视觉技术领域。
背景技术
目前物体识别、图片分类等问题随着深度学习的快速发展,取得了很好的效果,这两类问题都可以归为单/多标签分类问题,即每个目标图片有一定数目的标签,此类问题的最终目的就是正确得到这些标签,这些标签都有一个共同点,就是属于名词等能够实体化的词汇。而在图片语义信息获取问题中,实际上还存在获取图片所包含的物体及与物体相关的动词、形容词、名词等词汇的需求,严格来说也属于多标签分类问题,但为了和其它单/多标签分类问题进行区分,将这种问题称为图片属性探测;图片属性探测除了上述特点,还有其它一些特点:弱监督学习、标签数不固定、词汇属性类别广泛等。
因为图片属性探测有这些特点,特别是其所研究的词汇属性类别非常广泛,所以即便当前图片分类、物体识别等问题已经得到了良好的解决,图片属性探测却依然具有困难和挑战。同时,要将图片语义属性引入到各图片描述模型中,需要保证图片语义属性的正确性和有效性。
现有的图片属性探测方法主要有以下几种:1、基于卷积神经网络(Convolutional Neural Network,CNN)的图片属性探测,将图片输入到卷积神经网络中得到特征图谱,再将特征图谱通过全连接和sigmoid函数映射,输出一个属性概率向量;2、基于全卷积网络和多实例学习(Fully Convolutional Networks-Multi Instance Learning,FCN-MIL)的属性探测,同基于CNN的属性探测类似,先通过全卷积的CNN得到特征图谱,然后将特征图谱输入到多实例学习网络,得到最终的属性概率向量;3、基于最近邻(KNN)和Ranking的传统图片属性探测方法。
以上几种方法中基于KNN和Ranking的是属于传统的方法,准确率不高;而基于CNN的图片属性探测方法虽然采用了深度学习的方法,但只考虑了图片的全局特征,由于图片属性实际上很多情况下只占图片的很小一部分,且图片的同一部分可能会包含多个属性,这在一定程度上降低了CNN模型对于图片属性探测的有效性;基于FCN-MIL的图片属性探测方法具有对图片进行分块识别的特性,使得该属性探测方法能够在关注图片全局的情况下同时注重图片局部区域特征,充分利用图片包含的信息,因而准确率较基于CNN的方法提升了不少,但是由于算法本身具有分块识别的特点,导致子图谱上每个值关联的原始图片大小与MIL特征图谱的尺寸与有直接关系,因此如果特征图谱尺寸过小,其上每个值关联的原始图像尺寸就会过大,从而影响算法对图片局部区域的特征提取效果。因此这几种方法的属性探测效果都不尽如人意。
发明内容
本发明为解决上述问题提供一种准确率较高的基于区域敏感得分图谱及多实例学习(Region-sensitive Score Maps-Multi Instance Learning,RSSM-MIL)的图片属性探测方法。在特征图谱大小不变的情况下,本发明能够更加细致的对图片局部进行处理,可以一定程度上抵消特征图谱尺寸过小带来的不利影响,取得更好的图片属性探测效果。
本发明通过以下技术方案来实现上述目的:
一种准确率较高的基于区域敏感得分图谱及多实例学习的图片属性探测方法,包括以下步骤:
步骤(1):将原始图片输入到卷积神经网络得到k2×1000个10×10大小的特征图谱,本发明将之称为RSSM特征图谱。
步骤(2):将RSSM特征图谱输入到RSSM的组合层进行组合得到新的1000×10×10大小的特征图谱,本发明将之称为MIL特征图谱。
步骤(3):将MIL特征图谱输入到MIL算法层得到1000×1维的属性概率向量。
步骤(4):通过设置阈值对1000维的属性概率向量进行处理,大于阈值的所有属性被认为是图片所具有的属性。
上述步骤只是神经网络部分的设计,实际应用的具体流程应同其他监督学习的方法一样,需要首先对训练数据进行预处理,之后将原始图片和标签一起输入到上述的网络中,通过梯度下降等方式进行训练得到模型,在实际测试过程中先加载模型,再将测试图片输入到已经加载参数的深度神经网络中,将输出的属性值向真正的标签值进行映射,即可得到图片所具有的属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710714926.0/2.html,转载请声明来源钻瓜专利网。