[发明专利]基于上下文感知的注意力机制的图像美学质量评价方法有效
申请号: | 202011057308.1 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112183645B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 许牧楠;李楠楠;任俞睿;李革 | 申请(专利权)人: | 深圳龙岗智能视听研究院 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 万学堂;魏振华 |
地址: | 518116 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 上下文 感知 注意力 机制 图像 美学 质量 评价 方法 | ||
1.一种基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,具体包括如下步骤:
步骤一:数据预处理:将训练数据处理为模型需要的大小和格式,对图像数据进行归一化得到归一化的输入图像以及处理对应的美学分数分布标签来得到初始训练数据;
步骤二:将经过归一化的输入图像以及美学分数分布标签进入主干基准网络,得到主干基准网络的输出数据特征;
步骤三:经过步骤二得到的输出数据特征进入层次上下文注意力模块,经过融合后形成图像的层次上下文表示,该模块利用主干基准网络中多层卷积层的输出特征作为输入,将包括低层次和高层次的多层的特征经过融合后形成图像的层次上下文表示,具体为:
1)将不同层的输出特征别通过全局均值池化层以及全局最大池化层,得到多个特征图,经过全局均值池化层和全局最大池化层的特征图的大小为Ci×1×1;
2)经过所述全局均值池化层和所述全局最大池化层的特征图分别在通道维度上进行拼接,得到两种特征图A和M,A和M的大小均为C×1×1;
3)A和M分别经过两层全连接层以及修正线性单元(ReLU)层的学习,分别得到B和C,B和C的大小为C’×1×1;
4)将B和C逐像素相加,得到最终的输出特征D,大小为C’×1×1;
步骤四:步骤一得到的所述初始训练数据单独进入空间上下文注意力模块,形成图像的空间上下文表示,具体为:
1)建立7层空洞卷积层,每一层之后紧连批归一化层以及修正线性单元(ReLU)激活层,所述空洞卷积层的空洞数逐层递增至第四层后再逐层递减,空洞卷积率为1、2、5、9、5、2、1;
2)将原始训练图像数据输入堆叠的空洞卷积层,最后进入一层池化层,与所述主干基准网络的特征大小进行匹配,得到所述图像的空间上下文表示;
步骤五:融合多种上下文:将步骤四得到的所述空间上下文表示与步骤三得到的所述层次上下文表示融合,生成最终的注意力图;
步骤六:将所述最终的注意力图与步骤二的所述主干基准网络的所述输出数据特征相乘,得到所述主干基准网络的最终输出特征;
步骤七:所述主干基准网络的所述最终输出特征经过一层全连接层以及S型(Sigmoid)激活函数层,输出模型模拟的美学分数分布结果。
2.根据权利要求1所述的基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,在步骤七后还包括:
步骤八:将模型模拟的美学分数分布结果与图像的真实分数分布进行对比,设计针对美学分数分布的基于巴氏距离的损失函数为:
其中yn代表图像真实分布,xn代表输入图像,fθ(·)代表本方法模型;
步骤九:按照步骤一至八的顺序训练模型,得到图像美学质量评价模型;
步骤十:将待评价的任意图像调整为网络所需的大小,输入模型网络,得到美学打分分数分布。
3.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,将每张图像的大小进行调整,首先将图像的大小缩放为3×384×384,再从其中随机裁剪3×336×336的图片,并同时做水平翻转,以此作为全局视图输入,避免模型过拟合问题;然后,随机从原始分辨率的图像中切割3×336×336的局部区域,作为局部视图输入。
4.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,基准网络使用Inception-V3网络模型。
5.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,在步骤五中,通过逐元素相乘来融合所述空间上下文表示和所述层次上下文表示,后接一个归一化指数(Softmax)层生成范围为0-1的注意力图。
6.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法,其特征在于,训练过程中使用皮尔森相关系数和斯皮尔曼相关系数,二分类准确度来判断模型性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院,未经深圳龙岗智能视听研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057308.1/1.html,转载请声明来源钻瓜专利网。