[发明专利]黎曼流形深度卷积网络图像分类方法在审

申请号：	202210108718.7	申请日：	2022-01-30
公开（公告）号：	CN114462528A	公开（公告）日：	2022-05-10
发明（设计）人：	李朝荣	申请（专利权）人：	宜宾学院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08;G06F17/16;G06V10/764
代理公司：	暂无信息	代理人：	暂无信息
地址：	64400***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	黎曼流形深度卷积网络图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明方法针对ResNet系列模型的不足，提出一种能够提高图像分类性能的黎曼流形深度卷积神经网络，称为RM‑CNN。RM‑CNN图像分类模型是在ResNet系列网络上设计，充分利用各个层次上的特征相关性，采用黎曼流形网络来弥补信息丢失，同时利用自注意力模型来提高性能；总体上看该网络增加了ResNet网络的宽度，以宽度来解决梯度消失问题，达到提升图像分类性能的目的。

技术领域

本发明涉及图像分类领域，尤其是涉及利用将黎曼流形模型融合到深度卷积网络的图像分类方法。

背景技术

图像分类技术广泛应用于基于教育、航天、军事等领域。目前大多数图像采用深度卷积神经模型(比如ResNet、DenseNet)来提取图像特征，然后进行图像内容的识别。但是主流的ResNet等网络性能达到了瓶颈，提升空间有限并且仍然没有满足实际应用发展的需要。

主流的ResNet采用网络中增加残差模块的方法，在一定层度上解决了深层次的网络堆叠导致性能不升反降问题：即在网络深度到一定程度后，梯度消失严重，误差升高，识别分类效果变差，后向传播时无法把梯度反馈到前层网络，导致前面网络参数无法更新。残差模块能增加网络的深度，但是当网络深度增加到一定层度(识别性能仍然没有满足要求)时候仍然会出现性能降低的问题。同时黎曼流形还有一个不足在于它会产生大量的信息丢失，这种信息丢失发生在多层次上，丢失主要来源于卷积操作和下采样操作。

发明内容

本发明方法针对上述ResNet模型的不足，提出一种能够提高图像分类性能的黎曼流形深度卷积神经网络，称为RM-CNN。RM-CNN图像分类模型是在ResNet系列网络上设计，充分利用各个层次上的特征相关性，采用黎曼流形网络来弥补信息丢失，同时利用自注意力模型来提高性能；总体上看该网络增加了ResNet网络的宽度，以宽度来解决梯度消失问题，达到提升图像分类性能的目的。ResNet详细结构见2015年CVPR会议论文《Deep ResidualLearning for Image Recognition》，总体结构可以分为：conv1、conv2_x、conv3_x、conv4_x、conv5_x和尾部(average pool,1000-d fc,softmax)。本发明分别在conv1–conv5_x之间分支出黎曼流形处理模块，然后融合尾部特征在送入后续的分类模块。设计的网络适用于ResNet-18、ResNet-50、ResNet-101等ResNet网络。

在ResNet的layer1-layer4中间层输出的特征由多个矩阵组成即：d×w×h，w和h是矩阵宽度，d是矩阵个数。本发明用黎曼流形来捕获中间特征，采用的黎曼流形是协方差矩阵。首先将d×w×h转化为二维矩阵d×p，其中p＝w×h。将d×p的行看成是d个随机变量，然后计算矩阵d×p的协方差，得到d×d的协方差矩阵(称为COV运算模块)。由于d可能比较大，也就是特征矩阵较多，在COV操作前需要用平均池化方法AvgPool2D来下采样，降低数量d。

自注意力模型先要技术输入信息X的QKV矩阵的值，即：

Q＝X×W^Q，K＝X×W^K，V＝X×W^V (1)

W^Q，W^K和W^V分别是QKV的参数矩阵，矩阵维度为d_k。接着用公式(2)来计算输出矩阵A

这样自注意力模就能将输入X转化为A，达到学习的目的。

附图说明

图1为本发明的黎曼流形深度卷积网络结构图。

图2为本发明方法实现分类的流程图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宜宾学院，未经宜宾学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210108718.7/2.html，转载请声明来源钻瓜专利网。