[发明专利]基于端到端神经网络的视差图获取方法有效
申请号: | 201611113333.0 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106600583B | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 刘薇;齐飞;石光明;林春焕;宋志明;沈冲;王晓甜 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于端到端神经网络的视差图获取方法,主要解决现有获取视差图时大量搜索与迭代计算导致实时性差的问题。其方案是:1.利用特征学习网络与视差重构网络构建三维重构网络,其中特征学习网络设有结构相同的两个分支,每个分支结构设有五个网络层,视差重构网络设有三个网络层,这两个网络通过一个全连接网络层连接;2.将虚拟场景与现实场景数据分别输入至三维重构网络,通过训练该网络确定其权重参数;3.将拍摄的同步左右视图输入至确定权重参数后的三维重构网络,获得视差图。本发明避免了复杂的预处理,减小了搜索与迭代计算量,能满足更高的实时性要求,可用于双目相机、机器人视觉导航、工业自动化领域。 | ||
搜索关键词: | 基于 端到端 神经网络 视差 获取 方法 | ||
【主权项】:
1.一种基于端到端神经网络的视差图获取方法,其特征在于包括:(1)构建三维重构网络:(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;(3)通过精调后网络获得视差图D:(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt),其中
M表示三维场景的左视图VL与右视图VR的长为M个像素点,N表示三维场景的左视图VL与右视图VR的宽为N个像素点,pt表示第t个图像块的中心坐标是(xt,yt),t∈(0,...,n‑1);(3b)将三维场景的同步左右图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pt);(3c)对三维场景的视差图图像块D(pt)进行融合,得到三维场景的视差图D。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611113333.0/,转载请声明来源钻瓜专利网。