[发明专利]基于结构推理的人脸美学评价及增强方法在审
申请号: | 202011644344.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112699816A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 俞俊;毛锦涛;高飞 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 推理 美学 评价 增强 方法 | ||
1.基于结构推理的人脸美学评价及增强方法,其特征在于包括如下步骤:
步骤(1)构建人脸美学评价网络:
人脸美学评价网络包括两个分支,分支一采用卷积神经网络结构,从输入人脸图像中提取美学相关的人脸综合特征;分支二采用关键点检测网络提取人脸初步结构特征,并利用带有DiffPool池化模块的图注意力网络对人脸初步结构特征进行变换获取美学相关的人脸结构特征Ⅰ;将两个分支输出的人脸综合特征和人脸结构特征进行融合,分别输入到两个功能不同的多层感知机中预测,分别输出美学评价结果和人脸属性信息;
步骤(2)构建人脸美学增强网络:
人脸美学增强网络包括两个分支,分支一采用内容编码器和可变形卷积从输入人脸图像中提取人脸内容特征;分支二采用关键点检测网络提取人脸初步结构特征,并利用图注意力网络对人脸初步结构特征进行变换获取美学相关的人脸结构特征Ⅱ;将人脸内容特征和人脸结构特征Ⅱ进行融合,输入到解码器中,预测增强后的人脸图像。
2.根据权利要求1所述的基于结构推理的人脸美学评价及增强方法,其特征在于步骤(1)所述的人脸美学评价网络,具体如下:
1-1为了提升模型对于人脸结构的表征能力,在第一个分支中引入可变形卷积模块与全局池化;可变形卷积对于卷积窗中的每个位置p自动学习一个偏移向量Δp,利用偏移后位置(p+pn+Δp)的元素进行计算;pn表示标准卷积中的格状邻域偏移;整个特征图对应的全部偏移量,称之为偏移场;偏移场的预测利用一层或多层卷积进行实现;
1-2在第二分支中利用带有DiffPool池化模块的图注意力网络,标记为GAT/Pool;在图注意力网络的每一层,采用多路自注意力机制,对于每一个当前节点,利用与其邻接的节点特征更新当前节点的表征;池化模块拟采用DiffPool机制;
1-3预测阶段,采用多任务-多标签学习模式同时预测人脸美学评价结果和人脸属性信息;针对人脸美学评价结果:同时预测人脸美学的二分类标记、平均分数和分数分布;三者分别采用交叉熵损失、L2损失和EMD损失;针对人脸属性信息:采用多标签交叉熵损失,即每一种标记可能存在不同的类型,分别计算交叉熵,然后进行综合,作为目标函数。
3.根据权利要求2所述的基于结构推理的人脸美学评价及增强方法,其特征在于步骤(2)所述的人脸美学增强网络:
2-1基于图生成对抗网络的人脸结构迁移:
采用图生成对抗网络完成人脸结构的表示和迁移;将输入人脸图像输入到关键点检测网络提取人脸初步结构特征,人脸初步结构特征包含对应的关键点图A和特征矩阵X;将关键点图A和特征矩阵X通过图注意力网络映射为美化后人脸图像对应的关键点图和特征矩阵关键点图和特征矩阵构成人脸结构特征Ⅱ;
与生成对抗网络类似,GGAN包含生成器和编码器;生成器拟采用图注意力网络结构,其中图注意力网络结构中的多层生成注意力模块的输出为美化后人脸对应的特征矩阵之后,基于预测美化后的人脸关键点图其数学形式为:
实际应用中和都是未知的,因此无法利用预测结果和对应真实结果之间的误差计算损失;假定所有美观人脸的关键点图和特征矩阵都符合一定的分布,且与非美观人脸具有一定的差异;为了将输入的人脸映射为更美观的人脸,采用生成对抗机制,使得符合美观人脸对应的关键点图的分布;其对应的判别网络为结构判别网络,基于对抗学习机制,使得分布与美观人脸对应分布之间的距离最小;
2-2基于可变形卷积的人脸内容迁移:
在网络中间区域采用基于可变形卷积的残差模块;可变形卷积中的偏移场预测模块能够自动学习美化后图像各个像素的信息来源区域;为了提升位移场的合理性,在输入端同时输入人脸图像及其坐标矩阵;并在分支二中,针对关键点位置,计算通过图注意力网络GAT前后的关键点偏移量,与位移场之间构建形变一致性约束;此外为了提升增强网络的性能,基于残差网络思想在可变形卷积上增加直连通道,以实现人脸内容信息的精确迁移;
2-3基于多分布约束的判别网络:
为了提升增强网络的性能,采用多分布约束判别网络,其包含四个子网络:
1)身份判别子网络,判断合成人脸图像是否保留了输入人脸图像的身份信息,通过采用预训练的SphereFace提取特征,计算输入人脸图像与合成人脸图像的特征图之间的余弦距离,作为身份判别损失;
2)非条件判别子网络,采用CNN结构,判断合成人脸图像是否有吸引力(Y/N?)以及合成人脸图像是真是假(R/F?);采用L2距离作为非条件对抗损失;
3)结构判别子网络:采用带DiffPool池化的图注意力网络结构(GAT/Pool),预测合成人脸图像是否有吸引力以及是否真实,拟采用L2损失;
4)条件对抗子网络,预测合成人脸图像与输入人脸图像是否匹配(R/F?),同时预测输入人脸图像是否有吸引力(Y/N?),拟采用与人脸美学评价网络相同的结构和L2损失;在训练过程中,将以上判别网络的损失函数进行加权用于优化判别网络和增强网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011644344.8/1.html,转载请声明来源钻瓜专利网。