[发明专利]长短期记忆网络LSTM的训练系统、方法及电子设备有效
申请号: | 201910202820.1 | 申请日: | 2019-03-18 |
公开(公告)号: | CN111709513B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王桂彬;郑焕鑫;白锦峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/084 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短期 记忆 网络 lstm 训练 系统 方法 电子设备 | ||
1.一种长短期记忆网络LSTM的训练系统,其特征在于,包括:
主模型处理器,用于存储并维护所述LSTM的主模型,其中,所述LSTM的主模型包括第一至第M个网络层,M为正整数;以及
第一至第N处理器,用于分别根据LSTM的主模型生成本地副模型,所述第一至第N处理器分别包括第一至第M个处理单元,所述第一至第M个处理单元分别用于训练所述第一至第M个网络层,其中,N为正整数,所述第一至第M个处理单元中至少一个处理单元为半精度计算模式,其他处理单元为单精度计算模式;
至少一个转换单元,所述至少一个转换单元位于所述第一处理器中的至少一个半精度计算模式的处理单元和对应的网络层之间,用于对所述第一处理器中的半精度计算模式的处理单元和对应的网络层之间的数据进行半精度/单精度转换。
2.如权利要求1所述的LSTM的训练系统,其特征在于,所述第一至第M个处理单元之中第i个处理单元为半精度计算模式的处理单元,还包括:
训练控制器,用于依次控制所述第一处理器至第N处理器的第i个处理单元进行前向计算,并根据所述前向计算梯度依次控制所述第N处理器至第一处理器的第i个处理单元进行反向计算,以生成所述主模型的反向计算梯度,并将所述反向计算梯度通过所述转换单元发送至所述主模型处理器,以对所述主模型处理器中的第i个网络层进行更新。
3.如权利要求2所述的LSTM的训练系统,其特征在于,
所述训练控制器,还用于在生成反向计算梯度之后,分别获取所述第一处理器至第N处理器的第i个处理单元的反向计算梯度,若所述第一处理器至第N处理器的任一层处理单元的反向计算梯度为Nan或Inf,则放弃对所述主模型处理器进行更新。
4.如权利要求1-3任一项所述的LSTM的训练系统,其特征在于,所述第一至第N处理器为图形处理器。
5.一种长短期记忆网络LSTM的训练方法,其特征在于,包括:
利用主模型处理器存储并维护所述LSTM的主模型,其中,所述LSTM的主模型包括第一至第M个网络层,M为正整数;
利用第一至第N处理器分别根据LSTM的主模型生成本地副本,其中,第一至第N处理器分别包括第一至第M个处理单元,N为正整数;
利用所述第一至第M个处理单元,分别训练所述第一至第M各网络层,其中,所述第一至第M个处理单元中至少一个处理单元为半精度计算模式,其他处理单元为单精度计算模式;
利用至少一个转换单元对所述第一处理器中的半精度计算模式的处理单元和对应的网络层之间的数据进行半精度/单精度转换,其中,所述至少一个转换单元位于所述第一处理器中的至少一个半精度计算模式的处理单元和对应的网络层之间。
6.如权利要求5所述的LSTM的训练方法,其特征在于,所述第一至第M个处理单元之中第i个处理单元为半精度计算模式的处理单元,还包括:
利用训练控制器依次控制所述第一处理器至第N处理器的第i个处理单元进行前向计算;
根据所述前向计算梯度依次控制所述第N处理器至第一处理器的第i个处理单元进行反向计算,以生成所述主模型的反向计算梯度;
将所述反向计算梯度通过所述转换单元发送至所述主模型处理器,以对所述主模型处理器中的第i个网络层进行更新。
7.如权利要求6所述的LSTM的训练方法,其特征在于,所述生成所述主模型的反向计算梯度之后,还包括:
分别获取所述第一处理器至第N处理器的第i个处理单元的反向计算梯度;
若所述第一处理器至第N处理器的任一层处理单元的反向计算梯度为Nan或Inf,则放弃对所述主模型处理器进行更新。
8.如权利要求5-7任一项所述的LSTM的训练方法,其特征在于,所述第一至第N处理器为图形处理器。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求5-8中任一所述的长短期记忆网络LSTM的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求5-8中任一所述的长短期记忆网络LSTM的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910202820.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:极片、电芯以及电池
- 下一篇:数据管理方法、终端设备、管理系统及存储介质