[发明专利]图像识别方法、装置、电子设备和存储介质在审
申请号: | 202110686482.0 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113361442A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 崔致豪;王子芃;王正;耿嘉;丁有爽;邵天兰 | 申请(专利权)人: | 梅卡曼德(北京)机器人科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08;G06N3/04;G06N5/04 |
代理公司: | 北京科石知识产权代理有限公司 11595 | 代理人: | 徐红岗 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种图像识别方法、装置、电子设备和存储介质。图像识别方法,包括:获取包含待识别物品的图像数据;对所述图像数据进行处理以识别所述图像数据中的待识别物品,并获取待识别物品的关键点信息以及识别框参数;针对所识别的物品,基于所述关键点信息以及识别框参数在所述图像数据上生成识别框;并且针对所识别的物品,基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。本发明能够基于物品的关键点信息以及识别框参数并行地执行生成识别框的处理以及生成掩膜的处理,在工业场景中使用时,识别准确,不会生成冗余的识别框,并且同时生成识别框以及掩膜,实用性强。
技术领域
本申请涉及图像处理技术领域,更具体而言,特别涉及图像识别方法、装置、电子设备和存储介质。
背景技术
图像识别技术已经在商业领域具有广泛的应用。目前常用的图像识别方法或通过利用滑动窗口来选择和组装分数图的输出来生成分割的实例段,或者基于检测器直接预测没有建议的边界框,这些方法在很大程度上依赖于预定义的锚,并且超参数调整(例如锚比、锚步长)对于不同的数据集和框尺度至关重要,还有一些图像识别方法采用关键点检测思想获取对象的四个极值点并生成掩膜,或者用极坐标表示方法重新分割实例并预测目标的质心,然后基于质心和密集的轮廓点之间的距离预测识别框。此外,在获得识别框之后,传统的方法还包括消除类别级别冗余检测框的步骤以避免在同一个物品上出现多个识别框。此外,目前主流的图像识别算法通常会使用深度骨干网络进行图像数据的处理,常用的骨干网络为了准确率而使用了庞大的参数,导致模型推理速度低,并且严重限制了模型在低内存设备上的实现,还有些骨干网络专注于提高模型推理速度,但降低了准确率。
这些传统的方法,要么参数调整复杂,要么仅适用于生成识别框或生成掩膜,并且传统的方法中所使用的冗余框检测技术在一些特殊工业场景下使用时,例如,多个并列倾斜的物品或者有遮盖阻挡的物品,会造成严重的漏检。然而在工业场景中,例如使用机器人进行物品抓取这样的场景,漏检物品是不可容忍的,并且掩膜和识别框都是后续处理过程中的必要信息。现有的图像识别技术运用于工业场景时仍然需要克服许多的问题。
发明内容
鉴于上述问题,提出了本发明以便克服上述问题或者至少部分地解决上述问题。具体地,首先,本发明能够基于物品的关键点信息以及识别框参数并行地执行生成识别框的处理以及生成掩膜的处理,在工业场景中使用时,识别准确,不会生成冗余的识别框,并且同时生成识别框以及掩膜,实用性强;其次,本发明提出的骨干网络能够以两个处理过程的多个阶段对输入的图像数据进行多分辨率及多特征维度的处理,并且在第二处理过程中只进行升采样处理,从而保证了输出特征图像数据的高分辨率,本发明的骨干网络在保持准确率的同时,提高了推理速度;再次,本发明的骨干网络除了数据处理流程之外,还包括特征过渡处理以及残差处理,能够保证高层次特征下的平稳的特征过渡并能够避免深度网络的梯度损失,提高了骨干网络推理的准确率;再次,本发明的掩膜生成过程获取了多个高层次维度特征的特征图像数据,从各个特征维度中通过池化方式提取掩膜特征,从而能保证所生成的图像掩膜的完整性,不会发生掩膜残缺的情况;再次,本发明基于骨干网络提取的物品关键点信息以及识别框参数对多特征维度的图像数据进行池化,从而能够从完整的图像中识别属于所识别物品的掩膜特征从而准确地提取出所识别物品的掩膜;再次,本发明基于通用的图像识别方法,提出了特别适用于识别多个倾斜并列物品的图像识别方法,能够提高多个物品识别的准确度,不会发生漏检。
本申请权利要求和说明书所披露的所有方案均具有上述一个或多个创新之处,相应地,能够解决上述一个或多个技术问题。具体地,本申请提供一种图像识别方法、装置、电子设备和存储介质。
本申请的实施方式的图像识别方法,包括:
获取包含待识别物品的图像数据;
对所述图像数据进行处理以识别所述图像数据中的待识别物品,并获取待识别物品的关键点信息以及识别框参数;
针对所识别的物品,基于所述关键点信息以及识别框参数在所述图像数据上生成识别框;并且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于梅卡曼德(北京)机器人科技有限公司,未经梅卡曼德(北京)机器人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686482.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序