[发明专利]基于跳出局部极小的改进卷积神经网络训练的方法在审
申请号: | 202310551209.6 | 申请日: | 2023-05-16 |
公开(公告)号: | CN116663615A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 刘波;傅可艺;袁彤彤;徐鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/08;G06F18/214 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跳出 局部 极小 改进 卷积 神经网络 训练 方法 | ||
1.基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,包含以下几个步骤:
(1)随机初始化结构为L层的卷积神经网络,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络是参数空间中的一个局部极小值点,记作θ*
(2)构造出与卷积神经网络θ*具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ
(3)再构造出与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络θ′;
(4)进一步优化θ′,使训练损失降至比θ*的训练损失更低的程度,得到比θ*分类效果更好的卷积神经网络,记作θ″,代表成功跳出了局部极小值点θ*。
2.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤1具体包括:
构造结构为L层的卷积神经网络,除最后一层即第L层是全连接层,其余层都为卷积层,随机初始化权重和偏置,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络,记作θ*;
将卷积神经网络θ*第l层的二维权值矩阵表示为W*l,其中第(i,j)项记作W*l(i,j),用来记录卷积神经网络θ*第l层的第i个输出神经元和第j个输入神经元之间的权值;将卷积神经网络θ*第l层的偏置向量表示为b*l;将卷积神经网络θ*第l-1层的输出表示为o*l-1,将ReLU激活函数表示为函数σ,则卷积神经网络θ*第l层的输出o*l为:
o*l=σ(W*lo*l-1+b*l)
卷积神经网络θ*的训练损失(经验风险)的定义如下所示:
其中o*l(xi)为输入的第i个训练样本xi在卷积神经网络θ*中的映射输出,yi为输入的第i个训练样本xi的标记(目标输出),函数l表示分类问题中广泛使用的交叉熵损失函数,N代表训练样本总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310551209.6/1.html,转载请声明来源钻瓜专利网。