[发明专利]一种基于原型的嵌入网络的场景图生成方法在审
申请号: | 202310337066.9 | 申请日: | 2023-03-31 |
公开(公告)号: | CN116416334A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 许辉;郑超凡;陈奇盛;张明星;尹鹏;郭嘉琪;邵杰 | 申请(专利权)人: | 宜宾电子科技大学研究院 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T17/00;G06F16/903;G06F40/194;G06F40/30 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 吕春艳 |
地址: | 644000 四川省宜宾*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 原型 嵌入 网络 场景 生成 方法 | ||
1.一种基于原型的嵌入网络的场景图生成方法,其特征在于,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
2.根据权利要求1所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
3.根据权利要求2所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
4.根据权利要求3所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=Wsts+s
o=Woto+o
p=ptp+p。
5.根据权利要求4所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
其中,所述主客体与对应的谓词在公共语义空间中进行匹配的表达式主客体的关系表示r以及谓词原型c的表达式具体为:
c=Wptp
式中,ReLU为激活函数。
6.根据权利要求5所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
所述原型引导学习的方法具体为构建第一损失函数和三元损失函数,所述第一损失函数的表达式具体为:
式中,为一元运算,τ为可学习的温度超参数,ct为真值类别的谓词原型,cj为第j个类别的谓词原型,N为谓词原型类别的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宜宾电子科技大学研究院,未经宜宾电子科技大学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310337066.9/1.html,转载请声明来源钻瓜专利网。