[发明专利]一种基于RGBD数据的局部描述子学习方法有效
| 申请号: | 201810083376.1 | 申请日: | 2018-01-29 |
| 公开(公告)号: | CN108171249B | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 胡永利;秦子文;孙艳丰;尹宝才 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 rgbd 数据 局部 描述 学习方法 | ||
1.一种基于RGBD数据的局部描述子学习方法,其特征在于包括以下步骤:
1)设计卷积神经网络模型;
卷积神经网络模型包含两部分:第一部分为特征提取层,第二部分为特征融合层;其中特征提取层分为两个子网络:二维卷积子神经网络和三维卷积子神经网络;特征融合层为全连接神经网络;二维卷积子神经网络和三维卷积子神经网络是平行网络;
二维卷积子神经网络由12层结构组成,从输入开始依次为第一Inception层、第二Inception层、第一最大池化层、第三Inception层、第四Inception层、第二最大池化层、第一卷积层、第三最大池化层、第二卷积层、第四最大池化层、第三卷积层、第四卷积层,则二维卷积子神经网络的结构表示如下:
第一Inception层:Inception1[ince11,ince21,ince 22,ince 31,ince 32,ince 41,ince 42,ince 51]
第二Inception层:Inception2[ince11,ince21,ince 22,ince 31,ince 32,ince 41,ince 42,ince 51]
第一最大池化层:Maxpool1[2D,k′,s′]
第三Inception层:Inception3[ince11,ince21,ince 22,ince 31,ince 32,ince 41,ince 42,ince 51]
第四Inception层:Inception4[ince11,ince21,ince 22,ince 31,ince 32,ince 41,ince 42,ince 51]
第二最大池化层:Maxpool2[2D,k′,s′]
第一卷积层:Conv1[2D,c,k,s,p,act]
第三最大池化层:Maxpool3[2D,k′,s′]
第二卷积层:Conv2[2D,c,k,s,p,act]
第四最大池化层:Maxpool4[2D,k′,s′]
第三卷积层:Conv3[2D,c,k,s,p,act]
第四卷积层Conv4[2D,c,k,s,p,act];
其中,每个Inception层结构相同,均由五条并行路径组成,五条并行路径的输出叠加作为Inception层的输出,这五条并行路径表示如下:
路径1:Conv[2D,ince11,k,s,p,act]
路径2:Conv[2D,ince21,k,s,p,act]
Conv[2D,ince22,k,s,p,act]
路径3:Conv[2D,ince31,k,s,p,act]
Conv[2D,ince32,k,s,p,act]
路径4:Conv[2D,ince41,k,s,p,act]
Conv[2D,ince42,k,s,p,act]
路径5:Maxpool[2D,k′,s′]
Conv[2D,ince51,k,s,p,act]
最大池化层即Maxpool[mdim,k′,s′],其中,mdim=2D表示二维最大池化核,mdim=3D表示三维最大池化核;k′为正整数,表示最大池化核的大小;s′为正整数,表示最大池化核移动的步长;
卷积层即Conv[cdim,c,k,s,p,act],其中,此处cdim=2D表示二维卷积核,cdim=3D表示三维卷积核;c为正整数,表示输出的通道数;k为正整数,表示卷积核的大小;s为正整数,表示卷积核移动的步长;p为正整数,表示边界的大小;act表示激活函数;
三维卷积子神经网络由9层结构组成,从输入开始依次为第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层,则三维卷积子神经网络的结构表示如下:
第一卷积层:Conv1[3D,c,k,s,p,act]
第二卷积层:Conv2[3D,c,k,s,p,act]
第一最大池化层maxpool1[3D,k′,s′]
第三卷积层:Conv3[3D,c,k,s,p,act]
第四卷积层:Conv4[3D,c,k,s,p,act]
第五卷积层:Conv5[3D,c,k,s,p,act]
第六卷积层:Conv6[3D,c,k,s,p,act]
第七卷积层:Conv7[3D,c,k,s,p,act]
第八卷积层:Conv8[3D,c,k,s,p,act]
最后将第八卷积层的输出向量化,作为三维卷积子神经网络的最终输出;
特征融合层为三层全连接网络,从输入开始依次为第一全连接层,第二全连接层,第三全连接层;全连接层记为dense[imp,act],其中imp表示隐含层节点个数,act表示激活函数,则特征融合层的网络结构表示如下:
第一全连接层:dense1[imp,act]
第二全连接层:dense2[imp,act]
第三全连接层:dense3[imp,act];
2)使用随机梯度下降方法训练卷积神经网络,具体如下:
(1)构建训练样本:每个训练样本包括两组数据和一个标签,每组数据由一个彩色图像块和一个TDF数据块组成,他们存在对应或者不对应的关系;
(2)系统训练:将一个训练样本中的两个彩色图像块分别输入到两个结构相同且共享参数的二维卷积子神经网络中并得到两个特征向量,分别记为fc1,fc2;将另外两个TDF数据块输入到两个结构相同且共享参数的三维卷积子神经网络中得到特征向量ft1和ft2;然后将fc1,ft1输入到特征融合层获取融合特征向量y1,将fc2,ft2输入到特征融合层获取融合特征向量y2;直到对所有训练样本提取融合特征和其中i∈[0,N],N表示训练样本的个数;
(3)构造目标函数,用于训练整个卷积神经网络模型:
目标函数L1如下:
其中表示二分类全连接神经网络的输出,它的输入是具体结构如下:dense[c,act]
dense[c,act];
是归一化的结果,N是训练样本的个数,表示的第li个分量,li是第i个样本的标签,λ是正则化参数,是二维卷积子神经网络和三维子卷积神经网络的网络参数;
当L1ε1,ε1∈R时训练终止,系统完成训练;
3)使用训练完成的卷积神经网络构造图像特征点的描述子,具体计算过程如下:
(1)从待构造描述子图像中选取特征点,并计算这些特征点的三维坐标,其中待构造描述子图像由一帧彩色图像和一帧对应的深度图像组成,具体步骤为:在彩色图像上随机选择a个特征点,500≤a≤2000,在深度图中找到这些特征点的对应点,然后根据这些对应点在深度图中的深度值计算其对应的三维坐标,计算公式如下:
其中,表示第k个特征点在深度图中的像素坐标,dk表示对应的深度值,(xk,yk,zk)表示对应的三维坐标,cx,cy分别表示相机光心的坐标,fx,fy分别表示相机x和y方向的焦距;
(2)根据每个特征点的三维坐标重构每个特征点的彩色图像块和TDF数据块;
(3)计算图像特征点的描述子,具体为:将重构的所有彩色图像块和TDF数据块分别输入到训练完成的卷积神经网络模型中的二维卷积子神经网络和三维卷积子神经网络,二维卷积子神经网络输出特征向量A,三维卷积子神经网络输出特征向量B,接下来将这两个特征向量组成新的向量{A、B}输入到特征融合层得到融合的特征向量,即为图像特征点的描述子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810083376.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种识别列车型号的方法、装置和设备
- 下一篇:目标检测方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





