[发明专利]基于聚集指导学习机制的室内RGB-D语义分割方法及系统在审
申请号: | 202211044480.2 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115546616A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 郑先伟;宦麟茜;岳林蔚;吴秀杰;熊汉江 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/26;G06V10/30;G06V10/88;G06V10/82;G06V10/54;G06V10/56;G06V10/80 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 聚集 指导 学习 机制 室内 rgb 语义 分割 方法 系统 | ||
本发明提供一种基于聚集指导学习机制的室内RGB‑D语义分割方法及系统,设置跨模态聚集指导机制的融合模块,通过自适应模态校准的方式实现互补信息的提取与融合,保留有利于分割任务的特征并抑制冗余的噪音信息;所述跨模态聚集指导融合模块由一个特征聚集编码器和一个特征指导器构成,所述特征聚集编码器,用于挖掘RGB‑D的互补特征,包括先利用区域自适应池化操作高度概括模态间高层语义特征,再通过门控融合模块有选择地融合两组全局描述算子从而生成一组跨模态的描述算子,该描述算子包含了RGB和深度数据有利的互补信息;所述特征指导器,用于根据由跨模态算子生成的通道权重指导向量对RGB特征响应进行矫正优化。
技术领域
本发明属于计算机应用领域,主要涉及一种基于聚集指导学习机制的室内RGB-D语义分割方案。
背景技术
随着地理信息技术的发展,面向智能的室内GIS系统构建在新基建浪潮中具有广泛的发展前景,其中室内场景数据的语义认知计算是实现GIS系统智能化应用的关键技术,传统的数据语义标注方式难以满足大数据需求,因此对场景进行全自动认知计算研究具有深刻的学术价值。得益于深度传感器和深度学习技术的迅速发展,基于深度学习的RGB-D图像语义分割算法研究受到广泛关注,推进了单模态RGB语义分割性能极限的突破。所述RGB-D图像是指RGB光学影像以及对应带有空间几何信息的深度影像,然而,基于RGB-D图像的语义分割任务挑战更大,其难点主要集中在两个方面:一是光学数据和深度数据在本身数据特点上存在较大差别,当前研究采用无差别的模态融合,难以充分挖掘数据之间的互补特征;二是深度数据质量相对不稳定,深度数据通常有空洞和噪声,且存在与光学影像对齐等问题,直接将深度数据输入语义分割网络进行卷积核融合,会引入大量异常和冗余信息。此外,室内场景具有遮挡严重、光照不均、物体目标尺度多样等特点,给基于RGB-D的室内场景语义分割网络结构的设计带来了更多的挑战。
发明内容
为了解决上述的技术问题,本发明提供了一种基于聚集指导学习机制的室内RGB-D语义分割方案,实现了多模态数据的有效融合以促进室内场景的高精度语义识别。
本发明所采用的技术方案提供一种基于聚集指导学习机制的室内RGB-D语义分割方法,设置跨模态聚集指导机制的融合模块,通过自适应模态校准的方式实现互补信息的提取与融合,保留有利于分割任务的特征并抑制冗余的噪音信息;所述跨模态聚集指导融合模块由一个特征聚集编码器和一个特征指导器构成,
所述特征聚集编码器,用于挖掘RGB-D的互补特征,包括先利用区域自适应池化操作高度概括模态间高层语义特征,再通过门控融合模块有选择地融合两组全局描述算子从而生成一组跨模态的描述算子,该描述算子包含了RGB和深度数据有利的互补信息;
所述特征指导器,用于根据由跨模态算子生成的通道权重指导向量对RGB特征响应进行矫正优化。
而且,RGB输入与深度数据HHA输入分别经双分支编码器结构后,输入跨模态聚集指导机制的融合模块,特征聚集编码器中首先采用区域自适应池化操作,分别对RGB特征与HHA特征进行全局语义压缩,然后输入门控融合模块。
而且,区域自适应池化操作实现方式为,
首先对输入特征X做1×1卷积操作,增强给定输入特征的表达层次,随后利用空间池化金字塔模块丰富多尺度上下文信息特征得到特征映射Y,再经过softmax激活函数保留最显著的区域,同时平滑特征图中弱响应和有噪音的区域,进而生成权重图,记为语义区域映射图B;
对输入特征X通过1×1卷积操作进行降维,得到降维结果A,
对于降维结果A中的每个特征图,通过应用B计算一个n维的全局描述算子用来表示全局信息,计算得到全局描述算子向量gl;全局描述算子向量gl中的数值表现A是否在B所呈现的语义区域中包含有效信息。
而且,门控融合模块的实现方式为,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211044480.2/2.html,转载请声明来源钻瓜专利网。