[发明专利]核函数预编译方法、装置、计算机设备和存储介质在审
申请号: | 202111156980.0 | 申请日: | 2021-09-30 |
公开(公告)号: | CN114035795A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 胡辰;杨旋;艾姗姗 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 吴婷 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 函数 预编 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种核函数预编译方法、装置、计算机设备和存储介质。该方法包括:获取参数列表,参数列表用于定义核函数的参数信息;根据预设节点列表将参数列表划分为多个子列表,预设节点列表包括多个从节点;分别将每个子列表下发至对应的从节点,以指示从节点根据子列表对对应的核函数进行预编译后生成可执行文件;获取从节点发送的可执行文件,从而使网络模型训练时能够直接运行可执行文件,而无需在启动阶段对核函数进行实时编译,从而有效减少网络模型训练的启动时间,进而提升网络模型训练的效率,且分布式编译可以大大减少核函数编译的时间消耗。
技术领域
本申请涉及计算机技术领域,具体涉及一种核函数预编译方法、装置、计算机设备和存储介质。
背景技术
随着人工智能(ArtificialIntelligence,AI)技术的快速发展,深度学习作为机器学习中的重要分支引起了广泛的关注。
深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术,需要高运算能力作支撑,因此,异构计算对其起着举足轻重的作用。为了能充分发挥异构芯片的计算能力,提高计算效率,芯片厂商推出了高效的深度学习计算库,异构芯片可以通过调用深度学习库的接口,运行各种网络模型,例如ROCm(ROCplatforM,面向加速计算的开放式软件生态系统)平台下的开源高性能机器智能库MIOpen。
目前,在进行网络模型计算时,MIOpen需要根据实际的核函数尺寸进行实时编译,之后将编译好的核函数载入到运行环境中,然而,对核函数进行实时编译带来大量的时间消耗,增加了网络模型计算的启动准备时间,明显影响整个训练的时长,降低网络模型计算的效率。
发明内容
本申请实施例提供一种核函数预编译方法、装置、计算机设备和存储介质,可以减少网络模型计算的启动准备时间,缩短训练时长,提高网络模型计算的效率。
第一方面,本申请实施例提供一种核函数预编译方法,包括:
获取参数列表,所述参数列表用于定义核函数的参数信息;
根据预设节点列表将所述参数列表划分为多个子列表,所述预设节点列表包括多个从节点;
分别将每个所述子列表下发至对应的从节点,每个所述从节点包括至少一个核函数,以指示所述从节点根据所述子列表对对应的核函数进行预编译后生成可执行文件;
获取所述从节点发送的所述可执行文件。
在上述实施例中,通过将参数列表划分为多个子列表并下发至对应从节点进行预编译,实现分布式预处理,可以有效减少核函数编译的时间,且将核函数预编译为可执行文件,在网络模型训练时可以直接运行可执行文件,相较于实时编译,减少了网络模型启动的准备时间。
在一个实施例中,所述根据预设节点列表将所述参数列表划分为多个子列表,包括:
根据预设节点列表对所述参数列表进行分配处理,以得到多个子列表,每个所述子列表包括至少一个参数。
在上述实施例中,将从节点均分为多个子列表,采用分布式预编译,能够有效减少核函数编译时间。
在一个实施例中,所述获取参数列表,包括:
根据预设配置文件生成第一参数列表和/或从预设深度网络中提取第二参数列表。
在上述实施例中,根据参数列表对核函数进行编译后生成可执行文件,可以增加可直接调用的可执行文件的范围,从而减少需要实时编译核函数的情况的发生,进一步减少网络模型启动的准备时间。
在一个实施例中,所述方法还包括:
当获取到所有所述从节点发送的可执行文件后,将所述可执行文件合并至预设数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111156980.0/2.html,转载请声明来源钻瓜专利网。