[发明专利]实例分割方法及装置有效
| 申请号: | 201611186619.1 | 申请日: | 2016-12-20 |
| 公开(公告)号: | CN106651877B | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 兰石懿;胡鹤翔;姜宇宁 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
| 主分类号: | G06T7/11 | 分类号: | G06T7/11 |
| 代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
| 地址: | 100190 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实例 分割 方法 装置 | ||
1.一种实例分割方法,其特征在于,所述实例分割方法包括:
接收待处理图像;
通过第一神经网络对所述待处理图像进行处理以生成第一特征张量;
通过第二神经网络对所述第一特征张量进行处理以生成不同尺度的多个第二特征张量,其中每个所述第二特征张量表示相应尺度的所述待处理图像;以及
通过第三神经网络对所述多个第二特征张量进行处理以实现对所述待处理图像的实例分割;
其中,所述通过第三神经网络对所述多个第二特征张量进行处理以实现对所述待处理图像的实例分割包括:通过所述第三神经网络的滑动窗口分别从所述多个第二特征张量中提取相应的窗口特征张量;基于所述窗口特征张量生成所述滑动窗口中存在物体的置信度,选择存在物体的置信度大于预定阈值的窗口特征张量作为有效窗口特征张量;基于每个所述有效窗口特征张量生成相应的注意力矩阵,其中所述注意力矩阵包括相应的所述有效窗口特征张量上的每一点位于待检测物体所在区域内的置信度值;将每个所述注意力矩阵广播乘相应的所述有效窗口特征张量以生成第三特征张量;以及基于所述第三特征张量生成所述待处理图像的实例分割;
或者其中,所述通过第三神经网络对所述多个第二特征张量进行处理以实现对所述待处理图像的实例分割包括:通过所述第三神经网络的滑动窗口分别从所述多个第二特征张量中提取相应的窗口特征张量;基于每个所述窗口特征张量生成相应的注意力矩阵和所述滑动窗口中存在物体的置信度,其中所述注意力矩阵包括相应的所述窗口特征张量上的每一点位于待检测物体所在区域内的置信度值;将每个所述注意力矩阵广播乘相应的所述窗口特征张量以生成第三特征张量;以及基于所述第三特征张量以及所述滑动窗口中存在物体的置信度生成所述待处理图像的实例分割。
2.根据权利要求1所述的实例分割方法,其特征在于,所述第二神经网络包括至少两个子网络,每个子网络用于生成一种预定尺度的所述第二特征张量。
3.根据权利要求2所述的实例分割方法,其特征在于,所述子网络之间是残余连接并共享参数的,后一个子网络基于前一个子网络的输出生成另一种预定尺度的所述第二特征张量。
4.根据权利要求3所述的实例分割方法,其特征在于,基于所述后一个子网络生成的第二特征张量的尺度小于基于所述前一个子网络生成的第二特征张量的尺度。
5.根据权利要求2所述的实例分割方法,其特征在于,所述子网络包括卷积层和池化层。
6.根据权利要求1所述的实例分割方法,其特征在于,所述注意力矩阵通过由全连接层组成的注意力生成器而生成。
7.根据权利要求1所述的实例分割方法,其特征在于,所述第三神经网络中还包括上采样层,所述上采样层用于提高所生成的实例分割结果的分辨率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611186619.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电陶炉(2088‑1)
- 下一篇:筒式凹底锅





