[发明专利]一种神经网络优化的图像识别方法有效

申请号：	201711156691.4	申请日：	2017-11-20
公开（公告）号：	CN107784361B	公开（公告）日：	2020-06-26
发明（设计）人：	林宙辰;方聪	申请（专利权）人：	北京大学
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络优化图像识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种神经网络优化方法，称为提升邻近算子机LPOM，涉及深度学习技术领域。本发明方法不需要使用现有的一阶或者二阶导数信息直接优化神经网络，而是将神经网络转化为新的LPOM优化问题，再通过交替极小化方法求解LPOM优化问题。采用本发明方法，求解过程消除了神经网络的层状结构；可通过交替迭代法进行求解；求解方法可在一定程度上转化为随机算法，使得迭代时保持较小的计算量；对于超过20层的神经网络，采用本发明方法仍能够使得训练误差稳定地下降。

技术领域

本发明涉及深度学习技术领域，尤其涉及一种新的神经网络优化方法，命名为提升邻近算子机(Lifted Proximal Operator Machine，LPOM)。该方法将神经网络的优化问题转化为一个新的优化问题进行求解，该转化成的待求的优化问题的Karush–Kuhn–Tucker(KKT)条件与神经网络前向过程等价。

背景技术

近年来，深度神经网络在人工智能、图像识别、语音识别领域取得了巨大成功。相比于浅层的神经网络，深度的神经网络往往有着更多的模型参数与更大的容量，在数据量较大的情况下能取得更好的效果。然而求解神经网络的优化问题是一个典型的非凸优化问题，随着神经网络层数的增加，训练神经网络也变得更加困难。目前，训练神经网络的方法大致分为三类：

第一类：最主流优化神经网络的方法是一些一阶随机算法，例如，随机梯度下降法(Stochastic Gradient Descent)、文献[1]记载的Adagrad、文献[2]记载的Adadelta、文献[3]记载的RMSprop[3]，以及文献[4]记载的Adam等。该类方法在迭代过程使用一个或者小批量的样本的梯度信息(或者预条件梯度信息)作为下降方向，梯度的计算过程通过反向传播算法计算获得。该类方法主要有如下两个优势：一是该类方法在迭代过程中，每次使用几个样本的梯度来估计整体样本的梯度，减小了每步迭代的计算量(从O(n)减小到O(1))；二是由于在迭代过程中，使用的下降方向带有一定的噪声，这类随机方法往往可以避开一些不好的关键点，文献[5]证明了在一定条件下，随机梯度下降法可以避开一阶鞍点。然而，随着神经网络层数的增加，该类方法也展现出了一些局限性。对于深层的神经网络，该类方法容易出现难收敛或者收敛较慢的现象。例如，当神经网络的激活函数是Sigmoid函数时，梯度在反向传播过程中会出现湮灭现象。故在实际使用这类一阶随机算法时，经常需要使用一些工程技巧来辅助优化，例如：随机权重初始化、文献[6]记载的冲量(momentum)、文献[7]记载的梯度归一化、文献[8]记载的dropout、权重延迟等。

另一类优化神经网络的方法是一些近似的二阶方法，其中比较典型的方法有文献[9]记载的Hessian Free、文献[10]记载的自然梯度法(Nature Gradient)和文献[11]记载的K-FAC。该类方法由于使用了更高阶的信息去优化神经网络，在训练一些特定问题中，训练误差能够低于一阶随机算法。但在实际过程中，这类算法由于使用了更高阶的信息，很难转化为随机算法，所以算法的计算成本较大，收敛速度较慢。

第三类优化神经网络的方法是采用文献[12]～[13]记载的ADMM方法。使用ADMM方法优化神经网络有如下优势：一是算法不需要使用反向传播算法去获得梯度信息，故不会出现梯度爆炸或者湮灭现象；二是ADMM算法很容易大规模并行(分布式)实现。然而，在实践中，ADMM往往只能求解浅层的神经网络(大约4层)。对于深层的神经网络，ADMM方法的收敛速度将十分缓慢。

参考文献：

[1]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for onlinelearning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(Jul):2121-2159.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711156691.4/2.html，转载请声明来源钻瓜专利网。

上一篇：基于集成分类器的网络安全态势评估方法
下一篇：一种数据传输方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种神经网络优化的图像识别方法有效

专利文献下载