[发明专利]一种针对深度神经网络DNN训练问题的错误定位方法在审
申请号: | 202310284459.8 | 申请日: | 2023-03-22 |
公开(公告)号: | CN116383046A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 文万志;吴涛;王楚越;陈希希;詹广生;程实 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F11/07;G06N3/08;G06N3/084;G06N3/04;G06N3/048;G06F18/2433 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 王毅 |
地址: | 226000 江苏省南通市崇*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 深度 神经网络 dnn 训练 问题 错误 定位 方法 | ||
1.一种针对深度神经网络DNN训练问题的错误定位方法,其特征在于,包括以下步骤:
S1、DNN模型准备;
S2、DNN训练监控和数据收集;
S3、第一次错误识别ADetection;
S4、第二次错误识别DDetection;
S5、错误定位ASTAnalysis。
2.根据权利要求1所述的一种针对深度神经网络DNN训练问题的错误定位方法,其特征在于,所述S1的具体步骤包括:
S1.1、通过关键词bug等同义词进行搜索DNNbug模型;
S1.2、删除一些得分低的DNNbug模型;
S1.3、检查搜索到的DNNbug模型是否包含补丁或者修复结果;当检查搜索到的DNNbug模型未包含补丁或者修复结果时,删除该未包含补丁或者修复结果的DNNbug模型;
S1.4、检查DNNbug模型中是否包含有初始化器、批量大小、激活函数、学习率、优化器、损失函数、精确率、迭代次数、批处理的必要模型参数;当检查DNNbug模型中未包含有初始化器、批量大小、激活函数、学习率、优化器、损失函数、精确率、迭代次数、批处理的必要模型参数时,删除该未包含有初始化器、批量大小、激活函数、学习率、优化器、损失函数、精确率、迭代次数、批处理的必要模型参数的DNNbug模型;
S1.5、获得有效的DNNbug模型用来进行错误定位并获得有效的DNNbug的修复结果用来对错误定位的结果进行检验。
3.根据权利要求1所述的一种针对深度神经网络DNN训练问题的错误定位方法,其特征在于,所述S2在DNN模型训练时利用回调方法监控模型并收集数据,收集的相关数据如下:S2.1、模型定义,包括层及其配置;S2.2、模型使用的优化方法的定义及其参数;S2.3、模型训练准确率和损失值;S2.4、计算每个神经元的梯度;S2.5、模型的超参数和训练中使用的其他必要变量。
4.根据权利要求1所述的一种针对深度神经网络DNN训练问题的错误定位方法,其特征在于,所述S3中ADetection用来识别5种DNN训练问题:识别梯度消失问题,在模型训练时遇到如下症状:在反向传播过程中,梯度从一层到另一层呈指数衰减,在接近输入层的层接近于零,训练准确率较低;识别梯度爆炸问题,在模型训练时遇到如下症状:在反向传播过程中,梯度从输出层到输入层以指数形式增加以指数形式增加,在靠近输入层的层中可能变大甚至变为NaN值,训练准确率较低;识别激活函数ReLU濒死问题,在模型训练时遇到如下症状:在使用激活函数ReLU训练DNN时,有绝大多数神经元的梯度为零,并且训练准确率低;识别振荡损失问题,在模型训练时遇到如下症状:模型训练的准确率在很长一段时间内一直在大范围内波动;识别慢收敛问题,在模型训练时遇到如下症状:模型训练的准确率在较长时间内保持较低的值,但训练的损失值却在缓慢下降。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310284459.8/1.html,转载请声明来源钻瓜专利网。