[发明专利]一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型在审

申请号：	202210783135.4	申请日：	2022-06-27
公开（公告）号：	CN115019147A	公开（公告）日：	2022-09-06
发明（设计）人：	于秀丽;董明帅;魏世民;白宇轩;吴澍	申请（专利权）人：	北京邮电大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V10/764;G06V10/774;G06V10/80;G06V10/40;G06N3/04;G06N3/08;G06T7/70
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于物体堆叠杂乱场景基于 transformer 机制抓取检测模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，所述方法包括：

抓取检测数据集(VMRD抓取检测数据集)的预处理；

基于Transformer机制的抓取检测模型的搭建；

使用VMRD数据集对模型进行训练及性能测试。

2.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，对抓取检测数据集(VMRD抓取检测数据集)的预处理，具体包括：

所述抓取检测数据集为当前已经公开的VMRD数据集，该数据集中的图像包含多个目标物体且物体之间随机的杂乱堆叠摆放。

所述对抓取检测数据集的预处理，其中预处理过程包括图像和标签的随机旋转、图像尺寸的随机裁剪、图片亮度的随机调整以及标签的编码操作。

3.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，搭建基于Transformer机制的抓取检测模型，具体包括：

所述基于Transformer机制的抓取检测模型为编码器-解码器结构，其中编码器以Transformer模块为基本单元，对输入图像进行全局的特征提取及特征编码操作；全卷积神经网络为模型的解码器，对编码器生成的特征图进行多尺度特征融合操作，最后根据融合后的特征图预测输入图像中所有可能的抓取位置，以及该抓取位置对应的物体类别。

4.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，使用VMRD数据集对模型进行训练及性能测试，具体包括：

所述VMRD数据集为经过数据预处理之后的VMRD抓取检测数据集，并且将数据集按照4:1的比例随机划分为训练集和测试集。

所述对模型进行训练和测试其中模型中以Transformer模块为基本单元的解码器为在ImageNet数据集上预训练的模型。

所述对模型进行训练为使用VMRD数据集中的训练集对模型进行训练，训练过程主要用于微调以Transformer模块为基本单元的编码器参数以及确定解码器参数。

所述对模型进行测试为使用VMRD数据集的测试集，验证模型在杂乱场景中对物体抓取检测以及识别等任务上的性能。

所述对抓取检测数据集的预处理为对图像进行随机旋转以及裁剪，并且对标定的信息进行转换和编码；所述基于Transformer机制的抓取检测模型的搭建，为使用Transformer的基本模块作为模型的解码器的基本单元，使用全卷积神经网络并结合多尺度特征融合操作作为模型的解码器，最后通过解码器预测融合后的特征图中每个特征所对应的抓取配置信息以及类别信息；所述使用VMRD数据集对模型进行训练及性能测试，其中训练为使用VMRD抓取检测数据集训练模型从而对模型的参数进行微调和优化，使其更适应抓取检测任务的需求；测试为使用VMRD的测试集测试模型的性能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210783135.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种植物篱-地埂-支浜相结合的生态隔离系统
下一篇：一种瓷复合支柱绝缘子

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型在审

专利文献下载