[发明专利]深度神经网络模型并行的全连接层数据交换方法及系统有效
申请号: | 201710191684.1 | 申请日: | 2017-03-28 |
公开(公告)号: | CN106991474B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 蒋文斌;金海;张杨松;叶阁焰;马阳;祝简;刘湃 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 神经网络 模型 并行 连接 数据 交换 方法 系统 | ||
1.一种深度神经网络模型并行的全连接层数据交换方法,其特征在于,包括:
(1)对于每个全连接层FCl,l∈[1,L],依据FCl中神经元的数目将FCl划分为N等分得到N个子全连接层,分别将划分后的各子全连接层分配到N个训练单元上,其中L为全连接层的数目;
(2)在每个子全连接层的前向传播过程中,并行地采用半停等前向传播方法得到各子全连接层的输出数据;
(3)在每个子全连接层的后向传播过程中,基于半停等前向传播方法得到的各子全连接层的输出数据,并行地采用定停等后向传播方法得到各子全连接层的权值梯度及阈值梯度;
(4)在一次前向传播与后向传播结束后,由各子全连接层的权值梯度及阈值梯度并行地更新每个子全连接层的权值数据与阈值数据;
其中,所述半停等前向传播方法的核心思想如下:
(2.1)对于每个子全连接层若任一子全连接层的输出数据已经到达,则由公式:计算子全连接层对子全连接层的输入数据,其中,下标l表示全连接层的索引,上标j和i表示子全连接层的索引,表示子全连接层与子全连接层的连接权值,表示子全连接层的输出数据,表示子全连接层对子全连接层产生的输入数据;
(2.2)针对子全连接层依据步骤(2.1)的结果,由公式:计算子全连接层的整体输入数据,其中,表示子全连接层的整体输入数据;
(2.3)针对子全连接层依据步骤(2.2)的结果,由公式:计算子全连接层的最终输出数据,其中,函数F表示一个非线性的激活函数,是子全连接层的阈值数据;
所述定停等后向传播方法的核心思想如下:
(3.1)对于每个子全连接层在Q个训练单元上的子全连接层对该子全连接层产生的输出残差数据到达后,将该Q个输出残差数据作为子全连接层的输入残差数据,记为:
(3.2)针对子全连接层由公式:累加步骤(3.1)中的Q个输入残差数据;
(3.3)针对子全连接层依据步骤(3.2)的结果,并行计算子全连接层对子全连接层的输出残差数据,记为:其计算公式为:
(3.4)针对子全连接层依据步骤(3.1)的结果,并行计算子全连接层对子全连接层的权值梯度,记为:其计算公式为:
(3.5)针对子全连接层依据步骤(3.2)的结果,计算子全连接层对子全连接层的阈值梯度,记为:其计算公式为:其中V为单位向量,V的维度大小等于训练中批处理块的大小;
(3.6)针对子全连接层重复步骤(3.1)~步骤(3.5),每次均处理后层的Q份子全连接层对子全连接层产生的输出残差数据,直到子全连接层所有的后层的输出残差数据都处理完毕。
2.根据权利要求1所述的方法,其特征在于,步骤(4)具体包括:
(4.1)由公式:并行地更新每个子全连接层的权值数据,其中,η表示学习率;
(4.2)由公式:并行地更新每个子全连接层的阈值数据。
3.一种深度神经网络模型并行的全连接层数据交换系统,其特征在于,包括:
划分模块,用于对每个全连接层FCl,l∈[1,L],依据FCl中神经元的数目将FCl划分为N等分得到N个子全连接层,分别将划分后的各子全连接层分配到N个训练单元上,其中L为全连接层的数目;
前向传播模块,用于在每个子全连接层的前向传播过程中,并行地采用半停等前向传播方法得到各子全连接层的输出数据;
后向传播模块,用于在每个子全连接层的后向传播过程中,基于半停等前向传播方法得到的各子全连接层的输出数据,并行地采用定停等后向传播方法得到各子全连接层的权值梯度及阈值梯度;
更新模块,用于在一次前向传播与后向传播结束后,由各子全连接层的权值梯度及阈值梯度并行地更新每个子全连接层的权值数据与阈值数据;
其中,所述半停等前向传播方法的核心思想如下:
(2.1)对于每个子全连接层若任一子全连接层的输出数据已经到达,则由公式:计算子全连接层对子全连接层的输入数据,其中,下标l表示全连接层的索引,上标j和i表示子全连接层的索引,表示子全连接层与子全连接层的连接权值,表示子全连接层的输出数据,表示子全连接层对子全连接层产生的输入数据;
(2.2)针对子全连接层依据步骤(2.1)的结果,由公式:计算子全连接层的整体输入数据,其中,表示子全连接层的整体输入数据;
(2.3)针对子全连接层依据步骤(2.2)的结果,由公式:计算子全连接层的最终输出数据,其中,函数F表示一个非线性的激活函数,是子全连接层的阈值数据;
所述定停等后向传播方法的核心思想如下:
(3.1)对于每个子全连接层在Q个训练单元上的子全连接层对该子全连接层产生的输出残差数据到达后,将该Q个输出残差数据作为子全连接层的输入残差数据,记为:
(3.2)针对子全连接层由公式:累加步骤(3.1)中的Q个输入残差数据;
(3.3)针对子全连接层依据步骤(3.2)的结果,并行计算子全连接层对子全连接层的输出残差数据,记为:其计算公式为:
(3.4)针对子全连接层依据步骤(3.1)的结果,并行计算子全连接层对子全连接层的权值梯度,记为:其计算公式为:
(3.5)针对子全连接层依据步骤(3.2)的结果,计算子全连接层对子全连接层的阈值梯度,记为:其计算公式为:其中V为单位向量,V的维度大小等于训练中批处理块的大小;
(3.6)针对子全连接层重复步骤(3.1)~步骤(3.5),每次均处理后层的Q份子全连接层对子全连接层产生的输出残差数据,直到子全连接层所有的后层的输出残差数据都处理完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710191684.1/1.html,转载请声明来源钻瓜专利网。