[发明专利]一种基于Transformer解码器的3D人体模型重建方法在审
申请号: | 202111543921.9 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114463511A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 刘盛;邹思宇;姚璐;李超楠;陈胜勇 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06T17/20 | 分类号: | G06T17/20;G06T5/00;G06V10/46;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 解码器 人体模型 重建 方法 | ||
本发明公开了一种基于Transformer解码器的3D人体模型重建方法,对原始RGB图像进行预处理,将其输入卷积神经网络进行特征提取,获得图像网格特征;将模板3D人体模型的顶点坐标输入一个线性层,获得编码后的模板顶点特征,将图像网格特征融入当前状态的顶点特征,并最终形成变换后的顶点特征,将变换后的顶点特征通过上采样层进行上采样,并通过逆向线性层将顶点特征解码为最终预测的3D人体模型顶点坐标。本发明更加充分地利用了图像网格特征中的局部信息,同时对顶点特征变换过程施加严格的语义一致性约束,帮助网络忽略不必要的语义转换,聚焦于预测更精准的人体模型。
技术领域
本申请涉及计算机视觉领域,尤其涉及一种基于Transformer解码器的3D人体模型重建方法。
背景技术
3D人体模型重建(Human Mesh Reconstruction,HMR)旨在通过视觉图像信号预测目标人体的3D人体网格模型,是计算机视觉的一个重要的任务。人体模型重建为许多下游任务提供目标人体丰富的姿态、形状等信息,如人体动作识别和虚拟试衣等,因此近年来受到越来越多的研究者的关注。同时,次领域中有许多挑战仍待解决,如人体关节的高度动态性、2D图像到3D预测的多义性、遮挡等。
近年来,基于RGB图像的3D人体模型重建方法可主要分为两类:基于模型的(Model-based)与不基于模型的(Model-free)。基于模型的方法将例如SMPL的3D人体模型的参数视为预测的目标,而后将预测参数输入SMPL获得最终的3D人体模型。其中,有的方法将模型参数从初始状态迭代式地优化至与2D视觉信息吻合,有的通过神经网络直接回归以获得模型参数。但由于2D图像与模型参数的表征差异过于巨大,为了获得精准的结果,这类方法一般需要大量的优化时间或训练数据。
虽然基于模型与迭代优化的方法过于耗时,但这些方法离线地为许多没有3D标注的数据集创造了大量的3D人体模型伪标签。近期,在这些带有伪标签的数据集的帮助下,许多方法尝试不基于模型的方法来重建3D人体模型。这些方法固定了3D人体模型网格拓扑结构,并通过神经网络直接预测网格顶点坐标。这些仿佛普遍采用卷积神经网络、图卷积神经网络等局部建模能力强的网络结构,但无法充分表达人体长距离部件或顶点间的关系。
Transformer是一种基于注意力机制的网络结构,可以软式地对两个序列间的关系进行建模。由于其强大的非局部交互建模能力,Transformer在近期许多视觉任务上(如图像识别、目标检测等)获得了出色的结果。在人体模型重建领域中,有方法通过卷积神经网络提取图像特征向量,通过重复操作得到每个顶点的特征,并使用Transformer编码器回归逐顶点的3D坐标。但现有的方法只通过自注意力机制建模顶点与顶点间内部的关系,没有构建表达能力充足的图像特征到顶点特征的映射,对图像特征的利用不充分。
发明内容
为解决上述问题,本申请提出一种基于Transformer解码器的3D人体模型重建方法,可充分利用RGB图片输入的信息,预测精准的目标3D人体模型。
为了实现上述目的,本申请技术方案如下:
一种基于Transformer解码器的3D人体模型重建方法,包括:
对原始RGB图像进行预处理,获得包含目标人体的图像,并将其输入图像特征提取模块进行特征提取,获得图像网格特征;
将一个模板3D人体模型的顶点坐标输入到线性层,获得编码后的模板顶点特征;
将图像网格特征和模板顶点特征输入到顶点特征变换模块,融合后得到变换后的顶点特征;
将变换后的顶点特征通过上采样模块进行上采样,并通过逆向线性层将上采样后的顶点特征解码为最终预测的3D人体模型顶点坐标。
进一步的,所述图像特征提取模块使用ResNet网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111543921.9/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法