[发明专利]一种Transformer图像道路检测方法在审
申请号: | 202210346629.6 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114937257A | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 付希凯;魏晓晨;吕孝雷 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06V20/58 | 分类号: | G06V20/58;G06V10/26;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 李爱英 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 transformer 图像 道路 检测 方法 | ||
1.一种Transformer图像道路检测方法,其特征在于,通过卫星获取多时相SAR图像作为原始图像,采用如下具体步骤进行道路检测:
步骤一、构建多层编码块,利用编码块分层提取原始图像的特征;
步骤二、将所提取的每一层特征根据时间轴组合并进行矩阵变换,得到每一层编码块对应的每层的总图像特征;
步骤三、将每层的总图像特征输入到时空Transformer模型中,得到每层的模型特征;将每层的模型特征与同一层的总图像特征相加,得到该层的增强特征;
步骤四、对每层的增强特征解码,并将所有编码结果按照编码顺序从后至前依次叠加,得到恢复特征,并将恢复特征输入到分割网络中;分割网络分割恢复特征,得到道路检测结果。
2.如权利要求1所述的方法,其特征在于,所述利用编码块分层提取原始图像的特征,将所提取的每一层特征根据时间轴组合并进行矩阵变换,得到每一层编码块对应的每层的总图像特征,具体方法为:
所述多层编码块包括共四层编码块;
从原始图像中取出三个相邻时刻的图像A、B和C作为输入,分别输入到第一层编码块中;第一层编码块对图像进行卷积,得到第一层特征A、第一层特征B和第一层特征C;将第一层特征A、第一层特征B和第一层特征C按时间轴组合,进行矩阵变换,结果作为第一层总图像特征;
将第一层特征A、第一层特征B和第一层特征C分别输入到第二层编码块中,得到第二层特征A、第二层特征B和第二层特征C;将第二层特征A、第二层特征B和第二层特征C按时间轴组合,进行矩阵变换,结果作为第二层总图像特征;
将第二层特征A、第二层特征B和第二层特征C分别输入到第三层编码块中,得到第三层特征A、第三层特征B和第三层特征C;将第三层特征A、第三层特征B和第三层特征C按时间轴组合,进行矩阵变换,结果作为第三层总图像特征;
将第三层特征A、第三层特征B和第三层特征C分别输入到第四层编码块中,得到第四层特征A、第四层特征B和第四层特征C;将第四层特征A、第四层特征B和第四层特征C按时间轴组合,进行矩阵变换,结果作为第四层总图像特征。
3.如权利要求2所述的方法,其特征在于,第一层编码块为64个3×3的卷积块,第二层编码块为128个3×3的卷积块,第三层编码块为256个3×3的卷积块,第四层编码块为512个3×3的卷积块。
4.如权利要求1所述的方法,其特征在于,所述图像的个数至少为3个。
5.如权利要求3所述的方法,其特征在于,所述将每层的总图像特征输入到时空Transformer模型中,得到每层的模型特征,具体为:
将每一层的总图像特征分别输入对应层的时空Transformer模型中,每个时空Transformer模型包含3个标量点乘注意力模块;每一层的总图像特征分别输入3个标量点乘注意力模块,具体方法为:
第一层的总图像特征进行线性变换Q,得到第一层Q线性变换矩阵Qi,将Qi输入到第1个标量点乘注意力模块;第一层的总图像特征进行线性变换K,得到第一层K线性变换矩阵Ki,将Ki输入到第2个标量点乘注意力模块;第一层的总图像特征进行线性变换V,得到第一层V线性变换矩阵Vi,将Vi输入到第3个标量点乘注意力模块;
在标量点乘注意力模块中,根据第一层Q线性变换矩阵和第一层K线性变换矩阵计算注意力系数Ai;注意力系数Ai和第一层V线性变换矩阵Vi相乘,得到输出headi;其中,i为标量点乘注意力模块的序号,i=1,2,3;
在得到每一层的所有输出headi后,将该层的所有headi组合并进行线性变换,得到该层的模型特征MultiHeadi(Q,K,V)。
6.如权利要求5所述的方法,其特征在于,所述分割网络包括一个1×1大小的卷积层和一个softmax层。
7.如权利要求1所述的方法,其特征在于,所述道路检测结果的大小为原始图像的尺寸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210346629.6/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序