[发明专利]一种应用于神经网络的SQRT激活方法在审
| 申请号: | 201810342616.5 | 申请日: | 2018-04-17 |
| 公开(公告)号: | CN108734273A | 公开(公告)日: | 2018-11-02 |
| 发明(设计)人: | 杨小宇;陈宇飞 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 激活单元 神经网络 激活 平方根函数 激活函数 反向传播 数据经线 线性单元 训练过程 鲁棒性 导数 本本发明 方法使用 正向传播 输出 初始化 平方根 弥散 网络 传递 计算机 应用 学习 | ||
本发明一种新的神经网络的激活方法,涉及计算机深度学习领域。为了克服现有技术鲁棒性差、训练过程中遭遇梯度弥散而导致训练失效以及初始化要求苛刻等不足,本方法使用平方根函数作为神经网络激活函数,在神经网络的训练过程中,数据经线性单元正向传播后,进入激活单元进行激活,激活单元使用平方根函数作为激活函数,将线性单元的每个输出值求其平方值后输出给下一层网络完成激活;数据经线性单元反向传播后,同上进入激活单元激活,此时激活单元使用相应的平方根函数的导数作为激活函数,将线性单元传回的梯度值求平方根导数,然后传递给上一层网络完成误差的反向传播。本本发明易于实现,鲁棒性强、精度高。
技术领域
本发明涉及计算机深度学习领域。
背景技术
在神经网络训练学习和应用的实践中,神经网络的激活过程是将线性分类器转变为非线性分类器的关键环节,激活方法起到了至关重要的作用。Frank Rosenblatt1958年在Psychological Review的第6期上发表题为The perception:a probabilistic modelfor information storage and organization in the brain的文章,提出了感知机模型,该模型可以解决线性分类问题,但由于缺少激活过程,感知机模型无法处理非线性分类的问题,受到很大局限。DE Rumerlhar1986年在Nature的第3期发表题为Learningrepresentation by back-propagating errors提出了基于BP算法的神经网络,该神经网络模型并没有关注激活方法的选择而直接选用了Sigmoid函数进行激活操作,但Sigmoid激活方法存在安全域狭窄、输出中心非对称等问题,在神经网络训练过程中会导致输出梯度弥散问题,使得训练的神经网络模型崩溃。Y Lecun,L Bottou,Y Bengio,P Haffner1998年在Proceedings of the IEEE的第11期上发表题为Gradient-based learning applied todocument recognition的文章,提出以Tanh激活方法代替Sigmoid激活方法应用在神经网络模型中,解决了Sigmoid激活方法输出非中心对称的问题,但是Tanh激活方法所相关的数据安全域仍然很窄,神经网络训练过程遭遇梯度弥散问题的风险较大,使用该激活方法的神经网络模型很容易崩溃,同时该模型加大了计算的开销,不利于神经网络的训练。XGlorot,A Bordes,Y Bengio 2012在Jmlr W&Cp的第15期上发表题为Deep SparseRectifier Neural Networks的文章,提出使用Relu激活方法的Relu型神经网络模型,Relu激活方法与使用传统S型函数的激活方法不同,它的激活函数属于修正型线性单元,在神经网络模型的训练过程中可以较快收敛,但是该方法中Relu神经元十分脆弱并且对神经网络的初始化十分敏感,在激活过程中Relu神经元受到较大梯度冲击后便会失活,导致神经网络的崩溃。K He,X Zhang,S Ren,J Sun 2015年在ICCV会议上发表题为Delving Deep intoRectifiers:Surpassing Human-Level Performance on ImageNet Classification的论文,提出采用PRELU作为激活函数的PRELU激活方法,PRELU一定程度上解决了Relu神经元脆弱的问题,但梯度弥散所带来的神经网络崩溃的风险并没有根除,并且由于PRELU神经元加入了需要训练的超参数,PRELU型神经网络的训练难度有所增加,还带来了安全风险,使得PRELU型神经网络易遭到异常数据的攻击。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810342616.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卷积神经网络优化机构
- 下一篇:用于深度神经网络的计算优化机制





