[发明专利]一种基于自监督预训练的场景图生成方法在审

专利信息
申请号: 202110151201.1 申请日: 2021-02-03
公开(公告)号: CN112989927A 公开(公告)日: 2021-06-18
发明(设计)人: 俞俊;余宙;李娉 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 训练 场景 生成 方法
【说明书】:

本发明公开了一种基于自监督预训练的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用训练好的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建自监督预训练网络模型,5、训练自监督预训练网络模型,6、构建自监督预训练和微调模型的场景图生成模型,7、训练场景图生成模型,8、网络预测值计算。本发明尤其是用于同时建模目标上下文和关系上下文在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的基于自监督预训练的场景图生成方法在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

技术领域

本发明提出一种基于自监督预训练的场景图生成方法。

背景技术

场景图生成是新兴任务,主要应用在跨媒体领域。场景图生成任务主要是通过建模目标间的上下文信息来生成场景图。具体来讲是输入一张图片,模型深入理解图像内容,生成这个图像抽象出来的场景图,场景图中包含结点和边信息,结点和边分别表示目标和目标间的关系。例如,图像内容为一个带着头盔的人在街上骑车摩托车,其中可能包含有“人戴着头盔”、“人骑车”、“车在街上”、“头盔在人头上”。为了得到更准确的预测,机器需要深入理解图像的内容,先进行准确的目标检测,并在此基础上对目标上下文信息和目标之间的关系上下文信息进行融合以最大程度地挖掘目标之间的关系。和单纯的关系检测任务比起来,场景图生成可以被理解为具有同时建模目标上下文信息和关系上下文信息的任务,此任务的关键是如何同时建模好视觉信息及利用好上下文信息。

自监督预训练是利用原始数据作为监督来源,它已经被广泛应用在很多计算机视觉任务中,如图像着色、拼图解决、图像修复、旋转预测、相对位置预测等任务,此外自监督预训练对自然语言处理任务的研究有很大的推动作用。最近,将自监督预训练方法应用到多模态任务中越来越受到关注,方法是对大规模图像/视频和文本对进行预训练,然后对下游任务进行微调。

随着图像领域研究的推进,场景图相关任务也越来越受到重视。在场景图生成任务中,主流方法主要分为两种,一种是循环神经网络,一种是是基于卷积神经网络的模型,也有部分研究开始注意到基于注意力机制的模型,但是很少有涉及到将自监督预训练方法。自监督预训练主要是基于对大规模数据的预训练,然后对下游任务进行微调。由于自监督预训练的权重富含图片相关信息,有效的建模视觉信息对场景图生成任务尤为重要,所以,将自监督预训练和场景图生成任务相结合无疑有助于加深场景图的理解进而增强最终场景图生成的表达能力。

在落地应用中,场景图生成任务应用广泛,比如智能驾驶中通过判断驾驶员的手和方向盘的关系,判断驾驶员是否不规范驾驶;再者,在医学领域中,可以通过场景图生成的方法,来构造药物分子结构,具有十分良好的研究前景及重要的研究意义。

综上所述,场景图生成是一个非常值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的基于自监督预训练的场景图生成系统。

场景图标签一般是由不同的标注者完成的,差异性可能比较大;同时,图像载体主题多样,语义信息复杂差异大,这使得场景图生成面临巨大的挑战。具体而言,主要存在如下两方面的难点:

(1)如何对目标上下文信息进行有效建模:场景图数据集由于标注问题及实际情况,差异性比较大,呈现长尾分布,那么如何更加有效的建模视觉信息来避免长尾分布和先验带来的影响及干扰,解决这个问题尤为重要。为了能够对目标的视觉信息更好的进行建模,这里引入自监督预训练权重,这些自监督预训练的权重是在大量图片中进行自监督预训练的,包含大量图片的视觉信息。再者,数据集中的长尾分布,影响场景图生成的效果,这里主要根据目标的视觉信息来生成场景图,来尽量避免数据集中的干扰,使得生成的场景图更加准确。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110151201.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top