[发明专利]一种基于自监督预训练的场景图生成方法在审
申请号: | 202110151201.1 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112989927A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 俞俊;余宙;李娉 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 训练 场景 生成 方法 | ||
1.一种基于自监督预训练的场景图生成方法,其特征在于包括如下步骤:
步骤(1)、数据预处理及数据集的划分;
对于场景图生成的数据集Ⅰ和预训练的数据集Ⅱ中的图像进行预处理,并且对预处理后的数据集Ⅰ和数据集Ⅱ均划分训练数据集和测试数据集;
步骤(2):使用训练好的目标检测网络对预处理后的数据集Ⅰ和数据集Ⅱ中的图像提取特征;
对于一张图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征将一张图像中所有候选框的特征拼接成总体视觉特征表示自然实数集,dv代表候选框的特征维度;
步骤(3):构建候选框的空间特征;
针对每张图像,根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征将每张图像中所有候选框的空间特征拼接成总空间特征为ds代表候选框的特征维度;
步骤(4):构建自监督预训练网络模型;
将图像特征中视觉特征V、空间特征S来生成最终的图像特征将该图像特征Z输入到自监督预训练网络模型进行自监督预训练,根据多层自注意力机制将图像特征Z映射到隐藏特征空间,产生特征向量最后将特征向量A输入到掩码区域重建模块中,来重建被掩码的图像区域,输出重建后预测向量将预测向量与对应的目标向量一起输入到相应的损失函数中,输出损失值Ⅰ;
步骤(5):训练自监督预训练网络模型;
根据步骤(4)中的损失函数产生的损失值Ⅰ,利用反向传播算法对步骤(4)的自监督预训练网络模型的参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(6):构建基于自监督预训练的场景图生成模型;
在自监督预训练网络模型的基础上,加入场景图生成模块;将自监督预训练网络模型输出的特征向量输入到场景图生成模块,预测m×m对候选框之间的预测关系将输出的预测关系与对应的目标关系一起输入到相应的损失函数中,输出损失值Ⅱ;
步骤(7):训练场景图生成模型;
将步骤(5)中自监督预训练好的权重作为场景图生成模型的初始化权重,来替代随机初始化的权重,根据步骤(6)中的损失函数产生的损失值Ⅱ,利用反向传播算法对步骤(6)的场景图生成模型的参数进行梯度回传,不断优化,直至整个网络模型收敛;
所述的自监督预训练好的权重,是由预训练的数据集Ⅱ中的训练数据集经过自监督预训练网络模型得出的权重;
步骤(8):网络预测值计算;
对场景图生成模型输出的预测关系中的关系分数p进行排序,选择分数最高的作为该预测关系的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110151201.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:构成框架系统的边框型材的切割装置
- 下一篇:一种浮游生物采样网冲洗装置