[发明专利]一种基于CNN-Transformer并行融合方法在审
| 申请号: | 202310041351.6 | 申请日: | 2023-01-13 |
| 公开(公告)号: | CN116051945A | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 袁宝华;陈佳璐;李宁;肖德豪;汤瑞 | 申请(专利权)人: | 常州大学 |
| 主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06V10/26;G06N3/0455;G06N3/0464;G06N3/048 |
| 代理公司: | 常州市英诺创信专利代理事务所(普通合伙) 32258 | 代理人: | 王美华 |
| 地址: | 213000 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 cnn transformer 并行 融合 方法 | ||
1.一种基于CNN-Transformer并行融合方法,其特征在于,包括以下步骤:
步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征;
步骤二、对编码器生成图像特征输入解码器中进行还原并输出分割特征图。
2.根据权利要求1所述的基于CNN-Transformer并行融合方法,其特征在于:PCTNet网络的编码器由CNN-encoder和PaFusion-encoder组成,将待分割医学图像输入CNN-encoder和PaFusion-encoder;PaFusion-encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。
3.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于,CNN-encoder包含一个Stem块和两个Local layer层;给定高度为H、宽度为W的输入图像,由CNN-encoder FCNN(·)生成的特征图表示为:
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道的数量,FlCNN为CNN-encoder生成第l层特征图函数。
4.根据权利要求3所述的基于CNN-Transformer并行融合方法,其特征在于:Stem块由两个3×3卷积组成,每个卷积块后面是BN模块和GELU激活函数,用于提取初始局部特征。
5.根据权利要求3所述的基于CNN-Transformer并行融合方法,其特征在于:Locallayer层由三层卷积块和一层SE模块组成,两个Local layer层中SEConv block的个数分别是2和6。
6.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于:PaFusion-encoder由Parallel fusion Layer和Patch Embedding组成,Patch Embedding通过卷积将输入图像均匀划分为块;Parallel fusion Layer包括CNN分支和Transform分支,给定高度为H、宽度为W的输入图像,由PaFusion-encoder的FPaFusiom(·)生成的特征图表示为:
其中,L表示特征层数,Θ表示CNN-encoder的参数,C表示通道数量,FlPaFusion为PaFusion-encoder生成第l层特征图函数;
Parallel fusion Layer存在两个输入Ft、Fc,Ft是Transformer分支上的输入,Fc是与Ft相同分辨率的CNN分支上的输入。
7.根据权利要求2所述的基于CNN-Transformer并行融合方法,其特征在于,并行融合模块对图像提取图像特征的过程包括:
(1)、Fc′是与Ft分辨率和通道数一致CNN分支上提取特征后形成的特征图,Fc′的公式为:
Fc'=gelu(Normal(Conv(Fc))),
(2)、Ft和Fc′相加得到特征图F与Ft一同作为输入进行卷积映射,Ft通过3×3的卷积映射生成Vt,F通过3×3的卷积映射生成Qf、Kf;
F=F′c+Ft,
Qf/Kf=Flatten(Conv2d(F),s),
Vt=Flatten(Conv2d(Ft),s),
(3)、将得到的Qf、Kf、Vt进行多头自注意力,表示为:
MHSA(Qf,Kf,Vt),
MHSA中每个头部的自我注意力计算如下:
其中,Q、K、V∈RL×d为query、key和value矩阵,经过卷积投影得到,d为query/key维,B∈RL×L为相对位置偏差;
(4)、将经过多头自注意力的特征图进行一次CMLP,CMLP由两层1×1卷积层组成,经过CMLP后得到的输出Ft′作为下一个融合模块中Transformer分支的输入,并与CNN分支上同等分辨率大小的特征图进行融合;
(5)、当Transformer分支融合到CNN分支时,采用Spatial Attention得到特征的空间注意力权重图,计算如下:
其中,σ表示sigmoid函数,和分别表示average-pooling特征和max-pooling特征;
(6)、将注意力图乘以CNN分支上的特征图,与Transformer分支上特征图Ft′进行拼接,并使用1×1卷积进一步融合特征,最后的输出作为下一个融合模块中CNN分支的输入;
(7)、Parallel fusion Layer的最后一层并行融合模块,CNN分支上的输出会与Transformer分支上的输出进行Element-wise addition后再经过Upsample作为编码层的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310041351.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:角度与开度可调的煤矸分拣拨爪装置及拨选方法
- 下一篇:有机废水处理系统及方法
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





