[发明专利]一种基于Tensorflow框架的模型并行方法在审
申请号: | 202010825175.1 | 申请日: | 2020-08-17 |
公开(公告)号: | CN112070223A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 田文洪;谢远伦;杨锦涛;许凌霄 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tensorflow 框架 模型 并行 方法 | ||
本发明公开一种基于Tensorflow框架的模型并行方法,其特征在于,在TensorFlow的模型并行中加入并行优化算法,以创新性贪心算法执行模型划分取代原本的随机模型划分;模型并行优化算法的策略是找出计算图中的关键路径,然后对执行这条路径的设备采用以最小完工时间为目标的贪心算法,将关键路径上的节点放置于执行速度最快的设备上。将关键路径放在同一设备上,可最大限度地减少网络传输时延,从而达到减小任务完工时间的目的。为避免计算关键路径的复杂算法和解决单个设备内存存储不了整个关键路径的问题,同时还要考虑到长路径上节点的重要程度,优化算法以节点的计算复杂度排序来估计关键路径。
技术领域
本发明涉及计算机领域,尤其涉及一种基于Tensorflow框架的模型并行方法。
背景技术
自TensorFlow开源发布框架以来,有关深度学习的学术和业界研究得到了前所未有的发展,随着相关的模型越来越高级,越来越复杂,分层结构得到的层数越来越多,神经网络模型越来越大,逐渐超过单个设备内存限制,对减少模型训练时间的需求也与日俱增。然而,TensorFlow对单个计算节点是具有高度限制性的,尤其是随着数据集大小的增加,其限制表现得更为突出,通过分布式并行的方式来提高深度学习模型的训练效率和解决单个设备对内存的限制瓶颈是一种行之有效的方法。因此,亟需一种提解决神经网络模型过大以致超过超过单个设备内存限制、同时减少模型训练时间的分布式并行算法。
发明内容
为了解决上述问题,本发明实施例提供一种基于Tensorflow框架的模型并行方法。
本发明实施例提供一种基于Tensorflow框架的模型并行方法,包括:
并行优化算法,实现算法以创新性贪心算法执行模型划分取代原本的随机模型划分模式。
所述模型并行优化算法具有可伸缩性。它使用户能够运行更大的模型,并通过添加更多设备使计算更快完成。
所述模型并行优化算法不是简单地根据经验随机对设备进行划分,其策略是找出计算图谱中的关键路径,然后对执行这条路径的设备执行以最小完工时间为目标的贪心算法,将关键路径上的节点放置于执行速度最快的设备上。
模型划分算法在TensorFlow框架平台上的具体实现过程:
输入:带有执行速度描述s的n个设备的集合D,带有计算复杂度描述c的m个计算节点的集合V,计算图谱的边集E。
输出:一个m*n维的矩阵O,表示算法最终的解。矩阵中的元素Oi,j表示最终将第j个节点放置在第i块设备上执行,其中,1≤i≤n,1≤j≤m。元素Oi,j的取值只能是1或者0,1表示放置,0表示不放置。
1.根据给出的计算节点的集合V和计算图谱的边集E,计算出每个节点基于来源的排序等级。
2.根据给出的计算节点的集合V和计算图谱的边集E,计算出每个节点基于去向的排序等级。
3.将计算出来的每个节点基于来源的排序等级与基于去向的排序等级求和得到最终的排序等级。
4.对每个节点的的最终排序等级进行排序。
5.对n个设备的集合D进行排序。
6.声明一个m*n维的矩阵O,每个元素用来表示节点放置在哪一个设备上执行
7.初始化矩阵O为0元素填充。
8.判断每一个设备是否可以存储和执行已经排序好的计算节点,1表示放置,0表示不放置。
9.当所有节点判断结束后,算法执行完毕。
所述模型并行优化算法是以节点的计算复杂度排序来估计关键路径的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010825175.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:MERS-CoV疫苗
- 下一篇:增大电抗器接头导电接触面的方法