[发明专利]一种基于自我监督的视觉表征学习方法在审
| 申请号: | 201710807231.7 | 申请日: | 2017-09-08 |
| 公开(公告)号: | CN107609586A | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自我 监督 视觉 表征 学习方法 | ||
技术领域
本发明涉及视觉表征学习领域,尤其是涉及了一种基于自我监督的视觉表征学习方法。
背景技术
随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉表征学习,就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。它可以应用在视觉对象识别,如Web图像自动标注、海量图像搜索、图像内容过滤、医学远程会诊等多种领域;也可以应用在视觉对象的检测,如工业机器人和无人驾驶汽车等领域;还可以应用在视觉对象跟踪,如对视频监控中的可以人物进行识别和跟踪等。传统的视觉表征学习在实例间容易受到视点、姿势、变形、照明等的影响,精确度不高,而且需要大规模的注释,耗费了许多人力和物力。
本发明提出了一种基于自我监督的视觉表征学习方法,采用自我监督的方法学习不变性,其表示包括实例间的差异和实例内部的差异,构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁,在图中定义两种将图像补丁相互关联的边缘类型,构造一个具有实例和内部边缘的图,包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘,训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督,能够自己获取注释标签,大大节省了人力和物力;同时降低了视点、姿势、变形、照明等带来的影响,提高了准确度。
发明内容
针对容易受到视点、姿势、变形、照明等的影响,精确度不高等问题,本发明的目的在于提供一种基于自我监督的视觉表征学习方法,采用自我监督的方法学习不变性,其表示包括实例间的差异和实例内部的差异,构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁,在图中定义两种将图像补丁相互关联的边缘类型,构造一个具有实例和内部边缘的图,包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘,训练深层神经网络来生成类似的视觉表示。
为解决上述问题,本发明提供一种基于自我监督的视觉表征学习方法,其主要内容包括:
(一)自我监督;
(二)视觉表征;
(三)图像构造;
(四)在图像中学习转换。
其中,所述的自我监督,自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异;实例间的差异反映不同实例之间的共同性,例如,可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置;实例内部的差异通过在视频中跟踪单个移动实例,从姿势、视角和照明变化中学习实例内部的不变性。
其中,所述的视觉表征,学习视觉表征捕获实例间的不变性(例如,猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异);然后通过对数据进行传递推理来获取更丰富的不变性集;首先构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁;在图中定义了两种将图像补丁相互关联的边缘类型;其中,称为实例间边缘的第一种类型的边缘,连接了对应于具有相似视觉外观的不同对象实例的两个节点;而称为实例内边缘的第二类型的边缘,连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。
进一步地,所述的边缘类型,给定建立的图形,通过已知的边缘传递关系,并关联未连接节点;具体来说,如果补丁<A,B>通过实例间边缘连接,<A,A′>和<B,B′>分别通过实例内边缘连接,通过简单的传递性丰富不变性,包括三个新对:<A′,B′>、<A,B>、<A′,B>;
训练一个三层暹罗网络,激励不变样本之间类似的视觉表示(例如,任何由A,A′,B,B′组成的对),同时不对与第三个错误选择样本类似的视觉表示进行激励(例如,随机样本C未连接到A,A′,B,B′);将VGG16网络作为三层暹罗网络每个分支的骨干架构;通过这种骨干架构学习的视觉表征,对其他识别任务进行评估。
进一步地,所述的三层暹罗网络,三层暹罗网络包括具有共享权重的卷积网络的三个层;对于每个层,采用标准的VGG16网络架构到卷积层,之后添加两个具有4096维和1024维输出的完全连接的层;三层暹罗网络接受三元组样本作为其输入:三元组中的前两个图像块是正对,最后两个是负对;提取其1024维特征并计算排序损失函数;
给定一对图像补丁A和B,将它们的距离定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710807231.7/2.html,转载请声明来源钻瓜专利网。





