[发明专利]一种DNN模型训练方法及装置在审
| 申请号: | 201910645026.4 | 申请日: | 2019-07-17 |
| 公开(公告)号: | CN110503184A | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 姚平;韩松江;徐杰;李蒙 | 申请(专利权)人: | 苏宁云计算有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 黄玉东<国际申请>=<国际公布>=<进入 |
| 地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 迭代 层级 原始数据集 第一数据 数据集中 系数矩阵 线性关系 偏倚 向量 神经元 机器学习技术 遍历计算 迭代计算 反向传播 返回数据 结构参数 模型训练 数据转换 损失函数 维度向量 重新执行 变化量 阈值时 维度 泄露 输出 转换 联合 统一 | ||
1.一种DNN模型训练方法,其特征在于,包括:
获取第一数据集和第二数据集,分别对所述第一数据集和所述第二数据集中的维度向量进行统一的维度扩充;
设置DNN模型的结构参数,并初始化第一数据集中各层级的线性关系系数矩阵WL和偏倚向量bL;
使用上述第二层级对应的线性关系系数矩阵WL和偏倚向量bL分别对第一数据集和第二数据集中的数据转换;
将第一数据集与第二数据集中的数据转换后叠加,遍历其中各元素执行前向传播计算输出第二层级中各神经元结果;
基于第二层级中各神经元结果执行前向传播计算后对应输出第三层级至第L层级中各神经元结果;
通过损失函数及反向传播函数分别对第二层级至第L层级中各神经元结果进行遍历计算,并在当次迭代相较于上次迭代中的各层级线性关系系数矩阵WL和偏倚向量bL的变化量均小于停止迭代阈值时对应输出,否则返回数据转换步骤重新执行迭代计算,直至迭代次数大于最大迭代次数时结束。
2.根据权利要求1所述的DNN模型训练方法,其特征在于,分别对所述第一数据集和所述第二数据集中的维度向量进行统一的维度扩充的方法包括:
所述第一数据集包括m个维度的K个元素,所述第二数据集包括n个维度的K个元素;
将所述第一数据集和所述第二数据集的元素维度扩充为m+n个维度,元素中扩充的维度通过补零表示。
3.根据权利要求2所述的DNN模型训练方法,其特征在于,所述结构参数包括模型层数L、激活函数F、损失函数LOSS、迭代步长α,β、最大迭代次数MAX和停止迭代阈值e,其中,所述模型层数L包括输入层、输出层和L-2个隐藏层,所述输入层的神经元个数为m+n。
4.根据权利要求3所述的DNN模型训练方法,其特征在于,使用上述第二层级对应的线性关系系数矩阵WL和偏倚向量bL分别对第一数据集和第二数据集中的数据转换的方法包括:
第一数据集的数据转换公式为Ci=WL2*Xi+bL2,第二数据集的数据转换公式为C′i=WL2*X′i,所述L在第二层级中取值2;
其中,Xi表述第一数据集中{X1,X2,…,Xk}中的K个元素,且每个元素为m+n维向量,X′i表述第二数据集中{X′1,X′2,…,X′k}中的K个元素,且每个元素为m+n维向量。
5.根据权利要求4所述的DNN模型训练方法,其特征在于,将第一数据集与第二数据集中的数据转换后叠加,遍历其中各元素执行前向传播计算输出第二层级中各神经元结果的方法包括:
采用公式Zi=Ci+C′i对第一数据集与第二数据集中的转换数据进行叠加计算;
采用公式ai,j=F(Zi,j)遍历各元素执行前向传播计算,输出第二层级中各神经元结果,所述Zi,j=Wj*ai,j-1+bj,其中,i∈(1,K),j∈(2,L),且所述j在第二层级中取值为2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910645026.4/1.html,转载请声明来源钻瓜专利网。





