[发明专利]基于规范等变转换算子神经网络的三维物体形状分类方法有效
申请号: | 202110895887.5 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113723208B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 林宙辰;董一鸣;何翎申;王奕森 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V20/64 | 分类号: | G06V20/64;G06V10/82;G06N3/0464;G06T17/20;G06N3/045;B07C5/34 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规范 转换 算子 神经网络 三维 物体 形状 分类 方法 | ||
1.一种基于规范等变转换算子的神经网络的三维物体形状识别方法,创建用于实现模型规范等变性的等变转换算子,再将全局坐标系投影到局部坐标系,并基于规范等变性实现模型的旋转不变性,用于高效地进行三维物体分类与识别视觉分析;包括以下步骤:
1)对以流形结构表示的3D物体数据进行网格(mesh)化,生成3D物体mesh数据;
2)对3D物体mesh数据进行预处理;包括:归一化;确定邻域;选定局部坐标系;计算对数映射以及联络;构造模型输入特征,对mesh中每一个点,将其在全局坐标系下的坐标投影到局部坐标系下,作为模型输入特征;
3)将3D物体mesh数据集分为训练样本和测试样本;
4)构建规范等变的Transformer;
所述Transformer包括:键值函数、查询函数和价值函数;其中,注意力分数包括键值key和查询query;通过设计不变的注意力分数和等变的价值函数实现规范等变的Transformer;包括如下步骤:
41)构建规范等变的Transformer架构;
设Transformer输入特征域f的维度为Cin,群表示为ρin,输出特征域的维度为Cout,群表示为ρout;定义规范等变的Transformer在规范w下,点p的输出为:
其中,MHSA是多头注意力函数,SA是单头注意力函数,WM是线性变换矩阵,||是向量拼接操作运算符;在头h处,SA函数的输出为:
其中,点qu=exppwp(u),fw′(qu)为点qu处的特征向量平行移动到点p在规范w下的值,Vu为价值函数,其将相对位置u用一个矩阵进行编码,表达式如下:
其中,α是注意力分数,其在中心点为p,邻域点为qu时头h处的表达式如下:
42)扩展正规表示;
CN群是由空间中所有对应的弧度值为的旋转矩阵所构成的具有N个元素的群,其中k为0到N-1之间的整数;正规表示是CN的一种特殊群表示;如果用Θk来表示旋转角度为的旋转矩阵,则CN可表示为{Θ0,Θ1,…,ΘN-1};对整数k,正规表示是一个N×N的置换矩阵,其中向量的所有分量循环平移k个单位;
可用不可约表示分解为其中是CN的不可约表示,A是N×N的可逆矩阵;当N为奇数时,不可约表示的形式如下:
其中,θ∈[0,2π)是矩阵Θ对应的旋转角度,即:
且
进一步地,将不可约表示扩展到二维旋转群SO(2)上,表示为:
其中即得到扩展后的群表示为:
由此实现对空间中的任意向量平行移动而不损失旋转角度信息;
43)构建规范等变的价值函数,将相对位置u用矩阵进行编码;
将价值函数定义为平行移动的特征向量的数值左乘价值编码矩阵WV;价值函数规范等变的充分必要条件是WV(Θ-1u)=ρout(Θ-1)WV(u)ρin(Θ);对WV进行泰勒展开求解此方程,即:
将该式代入到规范等变的充分必要条件式,即得线性方程组,表示为:
W0=ρout(Θ-1)W0ρin(Θ),
cos(θ)W1-sin(θ)W2=ρout(Θ-1)W1ρin(Θ),
sin(θ)K1-cos(θ)K2=ρout(Θ-1)W2ρin(Θ),
…
可通过截断泰勒展开的项限制线性方程组中方程的个数;求解线性方程组得到一组基其中m是解空间的维数;每一个包括将等变的编码矩阵W(i)表示为:
W(i)的线性组合∑ciW(i)仍满足Value函数规范等变的充分必要条件;在训练过程中,ci为可学习参数;
44)构建规范不变的注意力分数;
将键值函数和查询函数表示为:其中WK和WQ为线性变换矩阵;
得分函数采用S(K(·),Q(·))=P(ReLU(K(·)+Q(·)));其中,ReLU为逐分量的激活函数,P为平均池化函数;
经过激活和池化之后,计算得到的注意力分数是规范不变的;
45)通过将流形上的点在全局坐标系下的坐标投影到局部坐标系实现旋转不变性;
设xp是点p在全局坐标系下的坐标值,np为点p处的法向量,p点处的规范wp由两个坐标方向up和vp确定;投影后得到的在局部坐标系下的坐标值表示为:
Xp=(xp,up,xp,vp,xp,np),X对全局坐标系是旋转不变的;
5)构造并训练基于规范等变转换算子的神经网络的三维物体形状识别模型GET,模型的输入是以三维空间下的二维流形结构表示的3D物体,输出为该3D物体的预测类别;
采用步骤4)构建的Transformer作为卷积神经网络模型的卷积层;在最后一个卷积层的输出之后加入群池化层,使得规范等变的输出池化成规范不变的输出,再分别通过全局平均池化层和全连接层得到每个类别的预测分数;
将构建的Transformer层进行初始化,并对模型进行训练,得到训练好的GET模型;
6)利用步骤5)中构建并训练好的GET模型,对待识别的3D物体mesh样本数据进行识别,即得到预测的3D物体形状识别标签,实现基于规范等变转换算子的神经网络的三维物体形状识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110895887.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机场飞行区特种车辆管理系统
- 下一篇:瓷器泥釉料品种试验用混料设备