[发明专利]基于端到端自适应的分布式训练方法、装置、设备有效
申请号: | 202111471601.7 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114169427B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 王海峰;吴志华;于佃海;马艳军;吴甜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/774;G06V10/764 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 曹远;段丹辉 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端 自适应 分布式 训练 方法 装置 设备 | ||
1.一种基于端到端自适应的分布式训练方法,包括:
对待训练的模型进行切分,得到切分结果;
对分配给所述待训练的模型进行训练的计算资源进行解析,得到所述计算资源的属性,所述分配给所述待训练的模型进行训练的计算资源是根据所述待训练模型的计算资源需求、其他正在训练的模型所占用的计算资源以及空闲的计算资源确定的,所述计算资源的属性用于表征所述计算资源的拓扑关系、任务处理能力中的至少一种;
利用所述计算资源的属性,确定每个所述切分结果在所述计算资源中的分布策略;
根据所述分布策略以及定期检测到的所述计算资源的可用情况,利用可用的计算资源对所述待训练的模型进行分布式训练。
2.根据权利要求1所述的方法,其中,所述对待训练的模型进行切分,得到切分结果,包括:
确定所述待训练的模型的算子和张量;
利用所述切分策略,对所述待训练的模型中的算子和张量进行切分,得到所述切分结果。
3.根据权利要求2所述的方法,其中,所述利用所述切分策略,对所述待训练的模型中的算子和张量进行切分,得到所述切分结果,包括:
利用所述切分策略,对所述待训练的模型中的算子和张量进行切分,得到N个切片,所述N为正整数;
对于每个所述切片,加载所述切片的分布式属性信息,所述分布式属性信息包括该切片在所述待训练的模型中的进程拓扑信息、该切片的切分映射信息、该切片的切片大小信息中的至少一类;
将加载所述分布式属性信息的切片作为所述切分结果。
4.根据权利要求3所述的方法,其中,所述分布式属性信息的类别的确定方式,包括:
利用预定方式接收所述分布式属性信息的多个候选类别;
将在所述多个候选类别确定出的目标类别,作为所述分布式属性信息的类别。
5.根据权利要求3所述的方法,还包括:
利用每个所述切片的分布式属性,确定每个所述切片的放置信息,所述放置信息用于表征所述切片与所述计算资源的物理映射关系。
6.根据权利要求5所述的方法,当所述切片位于所述待训练的模型的相邻网络层且所述切片的放置信息不同,包括:
利用所述放置信息,确定通信辅助算子,所述通信辅助算子用于表征各所述切片之间的逻辑运算关系。
7.根据权利要求5所述的方法,当所述切片位于所述待训练的模型的同一网络层,包括:
确定重组转换算子,所述重组转换算子用于表征各所述切片之间的网络层一致性关系。
8.根据权利要求2至7任一所述的方法,其中,所述切分策略的确定方式包括:
对所述用户端发起的模型训练请求进行解析确定。
9.根据权利要求2至7任一所述的方法,其中,所述切分策略的确定方式包括:
利用预先训练的切分策略模型确定。
10.根据权利要求1所述的方法,其中,所述对分配给所述待训练的模型进行训练的计算资源进行解析,得到所述计算资源的属性,包括:
确定所述计算资源的硬件拓扑关系,将所述硬件拓扑关系作为所述计算资源的属性。
11.根据权利要求10所述的方法,其中,所述确定所述计算资源的硬件拓扑关系,包括:
确定所述计算资源中的最小组件,所述最小组件包括处理器或存储器;
确定由至少一个所述最小组件组成的机器设备,每个所述机器设备中的最小组件不重复;
确定由至少一个所述机器设备组成的簇,每个所述簇中的机器设备不重复;
将所述最小组件、所述机器设备和所述簇作为所述计算资源的硬件拓扑关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111471601.7/1.html,转载请声明来源钻瓜专利网。