[发明专利]一种基于自我监督的视觉表征学习方法在审

申请号：	201710807231.7	申请日：	2017-09-08
公开（公告）号：	CN107609586A	公开（公告）日：	2018-01-19
发明（设计）人：	夏春秋	申请（专利权）人：	深圳市唯特视科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市高新技术产业园***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自我监督视觉表征学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及视觉表征学习领域，尤其是涉及了一种基于自我监督的视觉表征学习方法。

背景技术

随着社会迈入数字化信息时代，快速增长的图像和视频量给数据管理和分析带来了巨大挑战，使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉表征学习，就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。它可以应用在视觉对象识别，如Web图像自动标注、海量图像搜索、图像内容过滤、医学远程会诊等多种领域；也可以应用在视觉对象的检测，如工业机器人和无人驾驶汽车等领域；还可以应用在视觉对象跟踪，如对视频监控中的可以人物进行识别和跟踪等。传统的视觉表征学习在实例间容易受到视点、姿势、变形、照明等的影响，精确度不高，而且需要大规模的注释，耗费了许多人力和物力。

本发明提出了一种基于自我监督的视觉表征学习方法，采用自我监督的方法学习不变性，其表示包括实例间的差异和实例内部的差异，构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁，在图中定义两种将图像补丁相互关联的边缘类型，构造一个具有实例和内部边缘的图，包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘，训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督，能够自己获取注释标签，大大节省了人力和物力；同时降低了视点、姿势、变形、照明等带来的影响，提高了准确度。

发明内容

针对容易受到视点、姿势、变形、照明等的影响，精确度不高等问题，本发明的目的在于提供一种基于自我监督的视觉表征学习方法，采用自我监督的方法学习不变性，其表示包括实例间的差异和实例内部的差异，构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁，在图中定义两种将图像补丁相互关联的边缘类型，构造一个具有实例和内部边缘的图，包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘，训练深层神经网络来生成类似的视觉表示。

为解决上述问题，本发明提供一种基于自我监督的视觉表征学习方法，其主要内容包括：

(一)自我监督；

(二)视觉表征；

(三)图像构造；

(四)在图像中学习转换。

其中，所述的自我监督，自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异；实例间的差异反映不同实例之间的共同性，例如，可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置；实例内部的差异通过在视频中跟踪单个移动实例，从姿势、视角和照明变化中学习实例内部的不变性。

其中，所述的视觉表征，学习视觉表征捕获实例间的不变性(例如，猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异)；然后通过对数据进行传递推理来获取更丰富的不变性集；首先构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁；在图中定义了两种将图像补丁相互关联的边缘类型；其中，称为实例间边缘的第一种类型的边缘，连接了对应于具有相似视觉外观的不同对象实例的两个节点；而称为实例内边缘的第二类型的边缘，连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。

进一步地，所述的边缘类型，给定建立的图形，通过已知的边缘传递关系，并关联未连接节点；具体来说，如果补丁<A,B>通过实例间边缘连接，<A,A′>和<B,B′>分别通过实例内边缘连接，通过简单的传递性丰富不变性，包括三个新对：<A′,B′>、<A,B>、<A′,B>；

训练一个三层暹罗网络，激励不变样本之间类似的视觉表示(例如，任何由A,A′,B,B′组成的对)，同时不对与第三个错误选择样本类似的视觉表示进行激励(例如，随机样本C未连接到A,A′,B,B′)；将VGG16网络作为三层暹罗网络每个分支的骨干架构；通过这种骨干架构学习的视觉表征，对其他识别任务进行评估。

进一步地，所述的三层暹罗网络，三层暹罗网络包括具有共享权重的卷积网络的三个层；对于每个层，采用标准的VGG16网络架构到卷积层，之后添加两个具有4096维和1024维输出的完全连接的层；三层暹罗网络接受三元组样本作为其输入：三元组中的前两个图像块是正对，最后两个是负对；提取其1024维特征并计算排序损失函数；

给定一对图像补丁A和B，将它们的距离定义为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司，未经深圳市唯特视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710807231.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自我监督的视觉表征学习方法在审

专利文献下载