[发明专利]一种基于原型的嵌入网络的场景图生成方法在审
申请号: | 202310337066.9 | 申请日: | 2023-03-31 |
公开(公告)号: | CN116416334A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 许辉;郑超凡;陈奇盛;张明星;尹鹏;郭嘉琪;邵杰 | 申请(专利权)人: | 宜宾电子科技大学研究院 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T17/00;G06F16/903;G06F40/194;G06F40/30 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 吕春艳 |
地址: | 644000 四川省宜宾*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 原型 嵌入 网络 场景 生成 方法 | ||
本发明公开了一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体‑谓词的匹配结果;S4、根据主客体‑谓词的匹配结果进行图像的场景图生成,完成场景图生成。本发明,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
技术领域
本发明属于图像处理技术领域,具体涉及一种基于原型的嵌入网络的场景图生成方法。
背景技术
近年来,深度神经网络因为性能优越而被广泛应用于各个领域。除了基础的图像分类、目标检测等认知任务以外,一些需要更高层次语义理解的应用任务随着视觉认知与自然语言处理的发展也受到的极大的关注,比如图像描述生成和图像问答等。然而,基础的认知任务都是孤立地对待图像中的实例,忽视了不同实例之间的视觉关系信息,从而无法充分理解图像中的视觉内容。
图像场景图生成就是一个专门检测不同实例之间的视觉关系的一项任务,其使用图结构的形式来表示视觉关系,其中节点表示图像中检测到的实例,边表示实例与实例之间的关系,包含了不同的关系谓词信息。场景图生成任务可以为下游任务提供一种中等层次的图像抽象特征,便于进一步加工。
然而,由于众多可能的主宾组合在视觉外观上的差异,导致每个谓语范畴内都存在较大的类内变异,如“man-eating-pizza,giraffe-eating-leaf”,在模型的潜在空间而不同类别之间存在严重的类间相似性,如:“man-holding-plate,man-eating-pizza”。上述挑战使得当前的场景图生成方法无法获得可靠的关系预测的鲁棒特征。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于原型的嵌入网络的场景图生成方法解决了目前的场景图生成方法不能捕获紧凑和可区分的关系特征表示的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络(PE-Net)对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
进一步地:所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
进一步地:所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
进一步地:所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宜宾电子科技大学研究院,未经宜宾电子科技大学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310337066.9/2.html,转载请声明来源钻瓜专利网。