[发明专利]一种基于图神经网络的图像布局属性预测方法在审
申请号: | 202310091305.7 | 申请日: | 2023-02-06 |
公开(公告)号: | CN116310508A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 谈笑枫;贺樑;吴兴蛟;肖路巍;马天龙 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06V10/774;G06N3/08;G06N3/0464;G06N3/0499;G06V10/766 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 图像 布局 属性 预测 方法 | ||
本发明公开了一种基于图神经网络的图像布局属性预测方法,包括以下步骤:a)确定图像布局需要预测的各种属性;将图像经过预处理,并将其转换为一包含节点和边的图结构;b)构建网络块;它由多层结构组成,在每一层中,首先通过一个线性层,接着经过多头图卷积网络,最后经过两层的多层感知机,以进一步加强特征表示的多样性;c)通过多层该网络块处理后的图像,输出特征个数逐层递减,网络呈金字塔结构,经过若干层后可以得到每个节点的最终特征信息。d)最后,将这些特征输入到一个全连接网络和分类器,得到图像各种布局属性的预测值。本发明相较于现有方法具有特征提取及融合能力强,可在一定程度上提升预测图像布局的准确度。
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于图神经网络的图像布局属性预测方法。
背景技术
图像分类及回归任务是人工智能领域一项具有挑战性和实用性的任务,属于一种图像处理任务,其目标是预测图像中各种属性的特征值。图像布局预测是图像分类及回归任务的一种类型,是把预测的特征值限定在“布局”这个框架下的任务。图像布局预测是指:给定一张图像,输出其有关布局的属性值。
图像布局预测早期的研究主要是采用卷积神经网络(CNN)来解决这类问题,通过卷积层和池化层来提取图像特征,再使用全连接层或卷积层来输出预测值。为了更好的描述图像布局,一些方法还会使用额外的结构化信息,比如边缘检测结果或者对象检测结果,来帮助预测。这些基于简单特征组合的模型往往只能建模低阶的图像和文本信息且包含较多冗余信息,实际模型表现不佳。
近几年研究者们也设计了一些新颖的算法来提升图表问答任务的性能。例如采用生成对抗网络(GAN)结合卷积神经网络来解决这类问题。GAN在生成图像方面有很好的表现,它可以学习到非常复杂的数据分布,提高训练效果;同时由于GAN是一种生成模型,可以在无标签数据集上进行学习。但是,上述方法难以建模图表中结构化的特征,尤其是图像中的复杂结构无法被CNN的局部卷积概括。
发明内容
有鉴于此,本发明的目的在于提供一种基于图神经网络的图像布局属性预测方法。为了充分体现图像中布局的结构,本发明使用图神经网络,以图结构的方式处理一张图,能够更好地提取图像中结构化的特征,尤其是图像中相似元素的关联性。
为实现上述目的,本发明采用如下技术方案:
一种基于图神经网络的图像布局属性预测方法,该方法包括具体如下:
步骤1:对需预测属性的图像,将其转化成具有节点和边的图结构;具体为:
A1:首先确定图像布局结构属性,下载ImageNet图像数据集,针对每个属性对图像数据集进行人工标注;接着,划定训练集和验证集,划分的比例为8:2,其中,所述的人工标注即对问题给出的答案;
A2:对于一张高度为H,宽度为W,大小为H * W * 3 的图片,把它分成N个D维向量,满足H * W * 3 = N * D, 并把每个向量视为一个图的节点;对于每个节点,找到距离它前K近的邻居并在它们之间加上一条边;如此得到一张G=(V,E)的图,其中V代表节点集合,E代表边集;
步骤2:构建深度学习网络块ViG,即在一个块中先后进入线性层、图卷积层、线性层和两层FFN网络;具体为:
B1:图卷积部分Grapher:采用最大相对图卷积的方式进行处理,包含聚合和更新操作;其中聚合操作采用多头的方式,即应用attention机制,每个头有各自不同的更新权重,进行并行的更新并最终聚合在一起;
B2:前馈网络FFN:是一个两层的多层感知器,包含隐藏层;
B3:ViG网络块:特征向量在进入Grapher之前,首先应用一个线性层将节点的特征转换成另一组特征,其次经过图卷积部分,最后进入前馈网络FFN,即构成一个ViG块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310091305.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序