[发明专利]一种具有丰富空间信息的多模型集成目标检测方法有效

申请号：	201910567433.8	申请日：	2019-06-27
公开（公告）号：	CN110348447B	公开（公告）日：	2022-04-19
发明（设计）人：	徐杰;汪伟;王菡苑;方伟政	申请（专利权）人：	电子科技大学
主分类号：	G06V10/774	分类号：	G06V10/774;G06V10/80;G06V10/82;G06V10/26;G06K9/62;G06N3/04
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种具有丰富空间信息的多模型集成目标检测方法，将单级框架、上下文建模和多尺度表示相结合，集成用于目标检测的网络模型，具体讲，我们采用了一种新的上下文建模方法，将语义分割领域中常用的空洞卷积应用到目标检测中，利用空洞卷积能够在不增加计算量的情况下扩展接收野的特性，从而构建了上下文检测模块；同时，我们还通过多尺度表示捕获细粒度的细节，以增强模型的表示能力；结合了集成学习的思想，进一步提高了检测器的性能。
搜索关键词：	一种具有丰富空间信息模型集成目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种具有丰富空间信息的多模型集成目标检测方法，其特征在于，包括以下步骤：(1)、搭建网络模型(1.1)搭建特征提取模块在Pytorch上搭建基于ImageNet预训练的VGG16模型框架和MobileNet‑V1模型框架，以及集成VGG16和MobileNet‑V1的模型框架作为作为特征提取模块；(1.2)、基于空洞卷积和Incepation‑Resnet结构搭建上下文模块基于空洞卷积和Incepation‑Resnet结构，构建三个结构相同的上下文block，再将三个上下文block进行级联，得到上下文模块；其中，每个上下文block包括一个shortcut分支和四个空洞卷积分支，在每个分支的头部使用1×1的卷积层；基于Incepation‑Resnet结构，将上下文block中的卷积层分别替换为一个2‑dilated层，两个3‑dilated层和以个5‑dilated层，以获取更多的上下文；将四个空洞卷积分支连接起来，并在尾部使用1×1卷积层来调整输出特征图中的通道数量，生成的特征图；将shortcut分支的输出特征图与四个空洞卷积分支生成的特征图相加，再对相加的结果应用Relu激活层，从而获得上下文block的输出特征图。(1.3)、搭建特征融合模块(1.3.1)、选择特征融合层在基于ImageNet预训练的VGG16模型框架中，将VGG16模型的卷积层第四层、第五层和上下文模块中第二个上下文block层一起作为特征融合层；在基于ImageNet预训练的MobileNet‑V1模型框架中，将MobileNet‑V1模型的dw4_1层、dw5_5层和上下文模块中第二个上下文block层一起作为特征融合层；在集成VGG16和MobileNet‑V1的模型框架中，将VGG16模型的FC_7层和MobileNet‑V1模型的dw5_5层、VGG16模型的Conv4_1层和MobileNet‑V1模型的dw4_1层分别进行集成，集成后的层和上下文模块中第二个上下文block层一起作为征融合层；(1.3.2)、对选择的特征融合层进行尺度变换在基于ImageNet预训练的VGG16模型框架中，将VGG16模型的卷积层第四层采用1×1卷积层以减少通道数，卷积层第五层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；在基于ImageNet预训练的MobileNet‑V1模型框架中，将MobileNet‑V1模型的dw4_1层采用1×1卷积层以减少通道数，dw5_5层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；在集成VGG16和MobileNet‑V1的模型框架中，将VGG16模型的Conv4_1层和MobileNet‑V1模型的dw4_1层集成后的层采用1×1卷积层以减少通道数，将VGG16模型的FC_7层和MobileNet‑V1模型的dw5_5层集成后的层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；(1.3.3)、对尺度变换后的特征融合层采用concat或逐元素相加的形式进行融合，再对融合后的特征图采用批正则化的方式进行归一化操作，得到包含更多空间信息的总特征图；(1.4)、结合各个模块，构建网络模型；将上下文模块连接到特征提取模块之后，再按照步骤(1.3)的方式连接特征融合模块，然后将特征融合模块的输出特征图输入到由六个卷积层组成的特征金字塔中，除特征金字塔的倒数第三层外，将特征金字塔的每一层输出特征图和上下文模块的输出特征图一起送入到检测层进行检测，从而搭建出三个网络模型，分别为VNet(ImageNet预训练的VGG16模型)，MNet(ImageNet预训练的MobileNet‑V1模型)和MVNet(集成VGG16和MobileNet‑V1的模型)；(2)、训练网络模型(2.1)、从PASCAL VOC 2007、PASCAL VOC 2012和COCO三个基准数据集中下载多组数据，将其中一部分数据作为训练数据，其余的作为测试数据；(2.2)、将训练数据分别输入至VNet、MNet和MVNet，进行前向传播，求得损失函数值，然后求取梯度值进行反向传播，并更新网络权重，然后再重复训练，直到网络模型收敛，并停止迭代；(3)、选择用于集成的网络模型(3.1)、任意选择VNet、MNet和MVNet三者中的两者作为集成网络模型；(3.2)、采用学习率变化的方式选择集成网络模型；(3.2.1)、对于VNet、Mnet和MVNet三个网络中的任意一个网络，在最后T个迭代周期中使用循环学习率为a(i)：其中，i∈T，α₁、α₂为常数，(3.2.2)、在每次循环学习率等于α₂时，保存一次模型，然后分别计算保存的模型的损失函数值，选择损失函数值最小的两个模型作为集成网络模型；(4)、目标检测先将集成网络模型中的两个子模型进行拼接，然后将测试数据输入至集成网络模型，并进行非极大值抑制，得到测试数据的预测边界框；再基于预测边界框预测出的边界框和类别得分，并检测出测试数据中的目标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910567433.8/，转载请声明来源钻瓜专利网。

上一篇：一种融合空洞卷积和边缘信息的实例分割方法
下一篇：一种基于卷积神经网络的车牌字符识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种具有丰富空间信息的多模型集成目标检测方法有效

专利文献下载