[发明专利]机器学习计算优化方法和平台有效
申请号: | 202210290092.6 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114418127B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 赵汉宇;任仕儒;李永 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 张阳 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 计算 优化 方法 平台 | ||
公开了一种机器学习计算优化方法和平台。所述方法包括:将机器学习计算图切分为由有状态节点的上游节点组成的数据工作子图以及由有状态节点及其下游节点组成的训练工作子图,并在被切分边的两侧,向数据工作子图添加数据发送节点,并向训练工作子图添加数据接收节点。由此基于节点有无状态划分计算图并插入通信节点,本发明能够将同一任务中的数据和训练工作解耦,从而能够动态分配运行时参与数据工作的通用计算资源,解决因无法为诸如GPU的专用计算单元提供足够的预处理数据而导致的深度学习任务运行效率降低的问题。进一步地,通过与调度器相结合,能够在集群范围内进行通用计算资源调度,打破单机界限,提升平台整体的硬件利用效率。
技术领域
本公开涉及一种机器学习领域,尤其涉及一种机器学习计算优化方法和平台。
背景技术
目前,深度学习任务的数据处理和训练位于同一段代码中,被一并编译并在相同的机器上运行。然而,不同深度学习任务所需要的通用计算资源(例如,CPU)与专用计算资源(例如,GPU、ASIC)的配比差异较大,这种多样性导致计算设备的硬件资源配比总是无法满足任务需求。并且随着单个专用计算资源计算能力的提升,现有技术中通常是配备的通用计算资源无法为专用计算资源提供足够的数据,从而导致由通用和专用计算能力失配引起的深度学习任务运行效率降低。
为此,需要一种能够解决因硬件资源失配导致的深度学习任务运行效率低下的问题。
发明内容
本公开要解决的一个技术问题是提供一种机器学习计算优化方法和平台。该方案基于节点有无状态划分计算图并插入通信节点,使得同一深度学习任务中的数据工作和训练工作彼此解耦,从而能够基于运行时训练工作的效率动态分配参与数据工作的通用计算资源,解决因无法为诸如GPU的专用计算单元提供足够的预处理数据而导致的深度学习任务运行效率降低的问题。进一步地,该方案能够与平台调度器相结合,在集群范围内进行通用计算资源调度,从而打破机器界限,提升平台整体的硬件利用效率。
根据本公开的第一个方面,提供了一种机器学习计算优化方法,包括:识别机器学习计算图中的有状态节点;将所述机器学习计算图切分为由所述有状态节点的上游节点组成的数据工作子图以及由所述有状态节点及其下游节点组成的训练工作子图;以及在被切分边的两侧,向所述数据工作子图添加数据发送节点,并向所述训练工作子图添加数据接收节点。
可选地,所述方法还包括:异步执行所述数据工作子图和所述训练工作子图。
可选地,异步执行所述数据工作子图和所述训练工作子图包括:基于所述数据工作子图的数据产生和所述训练工作子图的数据消耗的失配指标动态伸缩执行所述数据工作子图的CPU资源量。
可选地,动态伸缩执行所述数据工作子图的CPU资源量包括如下至少一项:在失配指标指示失配时,增加参与执行所述数据工作子图的CPU核的数量;以及在失配指标指示失配时,请求用于独立执行所述数据工作子图的新的CPU资源。
可选地,所述新的CPU资源在被分配后,复制所述数据工作子图,从训练数据集中选取与执行所述数据工作子图的已有CPU资源选取数据不同的数据以进行处理,并将经处理的数据送至相同的所述数据接收节点。
可选地,异步执行所述数据工作子图和所述训练工作子图包括:数据工作单元获取第一预定量的训练数据并基于所述数据工作子图进行预处理操作;经预处理的数据被从所述数据发送节点发送至对应的预处理结果存放队列;以及所述数据接收节点从所述对应的处理结果存放队列中获取所述经预处理的数据;以及根据所述经预处理的数据,训练工作单元基于所述训练工作子图进行训练操作。
可选地,经预处理的数据被从所述数据发送节点发送至对应的预处理结果存放队列包括:所述数据接收节点对应的数据接收算子维护所述预处理结果存放队列,并且持续从所述数据发送节点将所述经预处理的数据拉取至所述预处理结果存放队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210290092.6/2.html,转载请声明来源钻瓜专利网。