[发明专利]用于画作多标签识别的神经网络及相关方法、介质和设备有效
申请号: | 201910001380.3 | 申请日: | 2019-01-02 |
公开(公告)号: | CN109754015B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 王婷婷 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 付生辉 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 画作 标签 识别 神经网络 相关 方法 介质 设备 | ||
本发明公开一种用于画作多标签识别的神经网络及相关方法、介质和设备。本发明实施例的神经网络包括:残差注意力网络,用于接收画作图像并学习图像的注意力区域从而输出特征图;内容标签网络,用于接收特征图并输出内容标签的预测概率;题材标签网络,用于接收特征图并输出题材标签的预测概率;类别标签网络,用于接收特征图并输出类别标签的预测概率。该实施方式可实现画作图像的内容多标签识别、题材多标签识别及类别单标签识别。
技术领域
本发明涉及图像处理技术领域,特别涉及用于画作多标签识别的神经网络、利用该神经网络进行训练的方法、利用该神经网络进行多标签识别的方法、存储介质以及计算机设备。
背景技术
深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在ImageNet数据集上,ResNet的top-5error仅为3.75%,与传统识别方法相比指标得到了大大的提高。卷积神经网络具有强大的学习能力和高效的特征表达能力,在单标签识别中获得了很好效果。但真实的一幅图像中不仅只包含一个场景和物体,所以图像多标签识别问题亟需解决。
目前已有的方法均是基于普通照片图片,生成对应的内容标签或者场景标签,没有针对画作的特点(需要多类标签,包括多标签和单标签;而普通照片图片识别不需要类似画作的多类标签)生成标签的方法,也没有将单标签与多标签的生成放在一个网络、同时生成标签的方法。
因此,需要提供一种解决上述问题的网络、方法和装置。
发明内容
本发明的目的在于提供一种用于画作多标签识别的神经网络以及相关方法和装置,以解决现有技术存在的问题中的至少之一。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种用于画作多标签识别的神经网络,包括:
残差注意力网络,用于接收画作图像并输出第一特征图;
内容标签网络,用于接收所述第一特征图并输出内容标签的预测概率;
题材标签网络,用于接收所述第一特征图并输出题材标签的预测概率;以及
类别标签网络,用于接收所述第一特征图并输出类别标签的预测概率。
可选地,所述神经网络还包括残差网络,用于接收所述第一特征图并输出降维的第二特征图。
可选地,所述内容标签网络包括:
空间正则化子网络,用于接收所述第一特征图并输出内容标签的第一预测概率;
第一子网络,用于接收所述第二特征图并输出内容标签的第二预测概率;
其中所述第一预测概率和第二预测概率通过取平均值计算得到所述内容标签的预测概率。
可选地,所述第一子网络包括:
第一卷积层,用于接收所述第二特征图并输出第三特征图;
第一平均池化层,用于接收第三特征图并输出第四特征图;
第一全连接层,用于接收第四特征图并输出所述第二预测概率。
可选地,所述题材标签网络包括:
第一加权模块,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第五特征图;
标签相关性网络,包括顺序连接的多个卷积层,用于对所述第五特征图进行卷积输出第六特征图;
第二全连接层,用于接收第六特征图并输出所述题材标签的预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910001380.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工业模型训练方法、装置、设备及介质
- 下一篇:图片数据智能识别系统