[发明专利]一种基于自我监督的视觉表征学习方法在审
| 申请号: | 201710807231.7 | 申请日: | 2017-09-08 |
| 公开(公告)号: | CN107609586A | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自我 监督 视觉 表征 学习方法 | ||
1.一种基于自我监督的视觉表征学习方法,其特征在于,主要包括自我监督(一);视觉表征(二);图像构造(三);在图像中学习转换(四)。
2.基于权利要求书1所述的自我监督(一),其特征在于,自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异;实例间的差异反映不同实例之间的共同性,例如,可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置;实例内部的差异通过在视频中跟踪单个移动实例,从姿势、视角和照明变化中学习实例内部的不变性。
3.基于权利要求书1所述的视觉表征(二),其特征在于,学习视觉表征捕获实例间的不变性(例如,猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异);然后通过对数据进行传递推理来获取更丰富的不变性集;首先构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁;在图中定义了两种将图像补丁相互关联的边缘类型;其中,称为实例间边缘的第一种类型的边缘,连接了对应于具有相似视觉外观的不同对象实例的两个节点;而称为实例内边缘的第二类型的边缘,连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。
4.基于权利要求书3所述的边缘类型,其特征在于,给定建立的图形,通过已知的边缘传递关系,并关联未连接节点;具体来说,如果补丁<A,B>通过实例间边缘连接,<A,A′>和<B,B′>分别通过实例内边缘连接,通过简单的传递性丰富不变性,包括三个新对:<A′,B′>、<A,B>、<A′,B>;
训练一个三层暹罗网络,激励不变样本之间类似的视觉表示(例如,任何由A,A′,B,B′组成的对),同时不对与第三个错误选择样本类似的视觉表示进行激励(例如,随机样本C未连接到A,A′,B,B′);将VGG16网络作为三层暹罗网络每个分支的骨干架构;通过这种骨干架构学习的视觉表征,对其他识别任务进行评估。
5.基于权利要求书4所述的三层暹罗网络,其特征在于,三层暹罗网络包括具有共享权重的卷积网络的三个层;对于每个层,采用标准的VGG16网络架构到卷积层,之后添加两个具有4096维和1024维输出的完全连接的层;三层暹罗网络接受三元组样本作为其输入:三元组中的前两个图像块是正对,最后两个是负对;提取其1024维特征并计算排序损失函数;
给定一对图像补丁A和B,将它们的距离定义为:
其中,F(·)是网络的映射;使用(X,X+,X-)的三元组,其中(X,X+)是正对,(X,X-)是负对,最小化排序损失:
其中,m是实验中设置为0.5的边距。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710807231.7/1.html,转载请声明来源钻瓜专利网。





