[发明专利]基于参数高效的深度残差网络模型的图像分类方法有效

申请号：	201710628311.6	申请日：	2017-07-28
公开（公告）号：	CN107437096B	公开（公告）日：	2020-06-26
发明（设计）人：	林通;朱富勇	申请（专利权）人：	北京大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于参数高效深度网络模型图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种基于参数高效的深度残差网络模型的图像分类方法，根据网络的深度、宽度、多样性和基数，建立具有参数高效性的改进的网络模型，用于高效地进行图像分类识别；包括：将图像数据分为训练样本和测试样本；对训练样本图像进行预处理；构建具有参数高效性的深度残差网络模型，并进行模型训练：构建得到的网络模型包括深度金字塔残差网络模型、嵌套网络模型、三角形网络模型；将经过预处理的训练样本对网络模型分别进行训练，得到训练好的网络模型；对测试样本进行识别，分别得到预测的分类标签；由此实现图像分类识别。

技术领域

本发明属于模式识别、机器学习、人工智能领域，涉及图像分类方法，具体涉及基于参数高效的深度残差网络模型的图像分类方法。

背景技术

深度学习(Deep Learning)是目前人工智能领域最热门的话题，在机器学习中起着十分重要的作用。最近几年里，深度学习发展迅猛，在诸多领域里都取得了十分可观的成绩，尤其是在语音识别和图像识别领域，远远超越了相关的传统技术。深度学习的动机在于建立和模拟人脑的分层结构来解决机器学习问题，它是一种特征学习方法，原始数据通过多个简单但非线性的处理层转变成为更高层次的，更加抽象的表达。通过足够多的非线性变换的组合，深度学习可以学习非常复杂的函数。

2006年，Geoffrey Hinton和他的学生Salakhutdinov提出了深度网络和深度学习的概念，使得深度学习掀起了机器学习的又一次浪潮，从此受到广泛关注。数据、模型和计算能力推动了深度学习的蓬勃发展。首先，我们现在处于大数据时代，大规模训练数据的出现在很大程度上缓解了训练过拟合的问题，并且使得深度学习可以在各个领域内施展身手，例如图像识别领域的ImageNet，推荐领域的NetFlix，机器阅读理解领域的MS MARCO等。其次，网络模型的设计和优化方法都取得了很大的进步，深度学习能够发现大规模数据中的复杂结构，并利用反向传播算法(Back Propagation，BP)来根据前一层获取的误差改变当前层的参数，深度卷积神经网络(Deep Convolutional Neural Networks，DCNN)在处理图像、视频和语音等方面带来了突破，而递归神经网络(Recurrent Neural Networks，RNN)在处理序列数据，比如文本和语音方面表现的极为优秀，批量归一化(BatchNormaliazation，BN)，Dropout，权重归一化(Weight Normaliazation，WN)等方法都有效地加速了网络的训练并且防止了过拟合现象。最后，得益于计算机硬件的快速发展，深度学习需要大量的浮点计算以及矩阵计算，图形处理器(Graphics Processing Units，GPU)的出现为深度学习提供了这些计算能力，并且在相同的精度下，相对于传统CPU，GPU拥有更快的处理速度、更少的服务器投入和更低的功耗，这些优势使得我们可以训练大规模的神经网络。2017年，谷歌(Google)推出了自主研发的专为深度学习使用的张量处理单元(TensorProcessing Units，TPU)，其浮点运算能力，相比于传统GPU和CPU分别高出了15倍和30倍之多。

深度学习在视觉领域中最直观的进展体现在ImageNet大规模视觉识别挑战赛(IamgeNet Large Scale Visual Recognition Competition,ILSVRC)中。ILSVRC旨在大规模数据上评估物体检测算法和图像分类算法，包括图像分类、单目标定位、目标检测等多项任务。在图像分类任务中，训练数据为ImageNet的一个子集，包含1000个类别，共120万张图片，验证集和测试集共15万张图片，其中5万张带标签的图片作为验证集，10万张没有公开标签的图片作为测试集，用来评估算法模型。评价标准采用top-5错误率，对于每一张图片，只有一个真实标签，算法会以置信度降序的方式预测最多五个物体类别，只要有一个与真实类别相同则认为预测正确，否则认为预测错误。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710628311.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种苦丁茶酒的配制方法
下一篇：人胚胎干细胞向胰腺内分泌谱系的分化

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于参数高效的深度残差网络模型的图像分类方法有效

专利文献下载