[发明专利]基于端到端多任务多尺度神经网络的实时三维人脸重建方法有效
申请号: | 202110141542.0 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112818860B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 王珊;胡勇;沈旭昆 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06N3/08;G06T17/00 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端多 任务 尺度 神经网络 实时 三维 重建 方法 | ||
1.一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,包括:
步骤S1:定义多尺度人脸几何表示模型,包括:表示人脸区域的人脸二值遮罩图,表示人脸粗尺度几何的深度图,表示人脸细节的深度偏移图;
步骤S2:基于所述多尺度人脸几何表示模型,构建基于真实人脸图像的训练数据集;
步骤S3:构建并训练端到端的多任务多尺度神经网络,其中,所述端到端的多任务多尺度神经网络包含骨干网络和三个子网络,所述三个子网络包含:人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络;
输入人脸图像到所述端到端的多任务多尺度神经网络,输出人脸二值遮罩图、深度图和深度偏移图。
2.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,所述步骤S1:定义的多尺度人脸几何表示模型,是基于像素的人脸图像与三维人脸模型之间的映射,具体包括:表示人脸区域的人脸二值遮罩图,表示人脸粗尺度几何的深度图,表示人脸细节的深度偏移图。
3.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,所述步骤S3中所述骨干网络使用特征金字塔网络结构,包括至少三个卷积段,其中,
经过1个所述卷积段,输出原图分辨率1/2的特征图作为所述细节重建子网络的输入特征图;
经过2个所述卷积段,输出原图分辨率1/4的特征图作为所述粗尺度人脸重建子网络的输入特征图;
经过3个所述卷积段,输出原图分辨率1/8的特征图作为所述人脸区域分割子网络的输入特征图。
4.根据权利要求3所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,所述步骤S3中所述人脸区域分割子网络,包括:
步骤S31:使用金字塔池化模块对所述输入特征图进行不同尺度的池化,输出不同尺度的特征图;
步骤S32:将每一层不同尺度的特征图进行1×1的卷积操作,以及上采样,得到与所述输入特征图一样尺寸的输出特征图;
步骤S33:连接不同层的所述输出特征图,得到所述人脸二值遮罩图。
5.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,所述步骤S3所述粗尺度人脸重建子网络和所述细节重建子网络,采用编码解码网络,经过编码解码网络分别得到所述表示人脸粗尺度几何的深度图和所述表示人脸细节的深度偏移图;其中,所述编码解码网络包括编码器和解码器,所述编码器包含多个Conv-BN-ReLU单元,所述解码器包含多个Conv-BN-DropOut-ReLU单元。
6.根据权利要求5所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法,其特征在于,在所述粗尺度人脸重建子网络的输出之后,增加CoarsetoFine模块,使得输出所述表示人脸粗尺度几何的深度图分辨率与输入原图的分辨率一致。
7.一种基于端到端多任务多尺度神经网络的实时三维人脸重建系统,其特征在于,包括下述模块:
定义人脸模型模块,用于定义多尺度人脸几何表示模型,包括:人脸二值遮罩图,深度图和深度偏移图;
构建训练数据集模块,用于基于所述多尺度人脸几何表示模型,构建基于真实人脸图像的训练数据集;
训练神经网络模块,用于构建并训练端到端的多任务多尺度神经网络,其中,所述端到端的多任务多尺度神经网络包含骨干网络和三个子网络;所述三个子网络包含:人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络;
输入人脸图像经过所述端到端的多任务多尺度神经网络,分别输出人脸二值遮罩图、深度图和深度偏移图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110141542.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度哈希的多级检索行人重识别方法
- 下一篇:一种发光设备