[发明专利]一种基于场景图的图像理解与表达方法、系统与存储介质有效
申请号: | 202210243982.1 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114612767B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 匡平;刘晨阳 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 图像 理解 表达 方法 系统 存储 介质 | ||
1.一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,包括:
S1、基于关键中心点估计,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G;步骤S1基于DLA网络结构提取五个不同尺度下的视觉特征,得到高级语义特征组f,根据尺度从高到低,五个视觉特征分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场;
关系关联场的计算过程为:
首先,定义关系关联场为一个二维的向量场ρ表示数据集中的谓词数量,表示实数域;每一个二维向量场Fp中的谓词p表示着图像中所有目标实体之间的一对关系;定义一张输入图像中的目标实体为M,定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j表示为如下公式:
ri→j=(mi,pi→j,mj)
其次,定义目标实体的关键中心点Oi传播到另一目标实体关键中心点Oj的路径为则任意一个目标实体关键中心点关键P(x,y)的关系关联场Fp,x,y为:
其中,ei→j表示水平方向的路径积分,路径由一组落在目标实体关键中心点之间的矩形区域上的点组成;
对于与这两个候选的目标实体关键中心点,将这两个点各自的类别分数与沿着与的路径连线,得到这两个点关系关联场类别分数
随后,计算两个候选的目标实体关键中心点与在上投影的平均值,计算公式为:
将路径积分Ki→j定义为关系存在的置信区间:
其中,ui→j=|πi→j|表示πi→j中包含点的个数;
最后,将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数;
S2、引入先验字典D中的先验语料知识,对视觉场景图G中的视觉特征与先验字典中的语言特征进行重编码,并输出抽象特征组
S3、将抽象特征组输出成为输出语句序列S。
2.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,所述关键中心点热力图的计算过程为:
记输入图像为I,I∈RW×H×3,记关键中心点热力图为对热力图真值进行下采样,利用高斯卷积核函数将真值分散形成关键中心点热力图;
其中,W为输入图像的宽度,H为输入图像的高度,τ为总步长,Ck表示需要预测的单一目标实例的关键中心点个数,σt为目标尺度的自适应方差,t表示预测出的关键点,对齐进行下采样得到其对应关键点表示点在x方向的映射,表示点在y方向的映射。
3.根据权利要求2所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,所述关键中心点偏置的计算过程为:
对每一个中心关键点同步输出关键中心点偏置量O,并使用L1 Loss函数LO对该偏置量的训练进行惩罚,所述Loss函数LO如下式所示:
表示点的偏移量,R为超参数,N是输入图像I中的中心关键点个数;
由关键中心点热力图计算热力图偏置:当同一个目标存在两个高斯核函数重叠时,只取热力图的局部极大值作为目标实体的唯一中心关键点,即只取的目标作为整个流程的有效回归目标;为防止在获得热力图的过程因正负样本不平衡而带来的问题,使用像素级Focal Loss逻辑回归函数对其进行修正:
其中,α与β为超参数,在训练过程中将其手动设置为4和8,N是输入图像I中的中心关键点个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210243982.1/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序