[发明专利]一种深度学习模型训练的管理方法和系统在审
申请号: | 201811336316.2 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109558940A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 林镇锋;赵铭;易文峰;杨育;杨正刚;李小芬;徐文娟 | 申请(专利权)人: | 深圳市康拓普信息技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 模型训练 消息队列 底层物理资源 自动化管理 管理 调度关系 逻辑资源 生命周期 系统设计 与逻辑 资源池 整合 指令 中和 | ||
一种深度学习模型训练的管理方法和系统;所述深度学习模型训练的管理方法,包括以下步骤:步骤S1、针对深度学习模型,采用容器化技术将深度学习模型的训练任务所需用到的底层物理资源整合成逻辑资源池,并建立深度学习模型的训练任务中的指令与逻辑资源池之间的调度关系;步骤S2、采用消息队列对深度学习模型的训练任务的执行进行控制,以便完成深度学习模型的训练任务;步骤S3、采用容器化技术、消息队列并结合深度学习模型的训练任务的生命周期对训练中和/或训练后的深度学习模型进行自动化管理。本发明的深度学习模型训练的管理方法和系统设计巧妙,实用性强。
技术领域
本发明涉及人工智能领域,尤其涉及一种深度学习模型训练的管理方法和系统。
背景技术
现有的深度学习模型的训练,需要操作人员预先熟悉深度学习模型的代码,并搭建环境,不便于使用。同时,在深度学习模型的训练过程中,所采用的机器的使用情况难以跟踪,硬件资源无法做到自动分配;训练日志的保存、查看不方便,深度学习模型的调整和优化过程难以跟踪,训练数据、以及训练过程中或训练过程后的深度学习模型的保存需要人工介入。深度学习模型的训练任务垃圾文件难以清理。
发明内容
本发明针对上述技术问题,提出一种深度学习模型训练的管理方法和系统。
本发明所提出的技术方案如下:
本发明提出了一种深度学习模型训练的管理方法,包括以下步骤:
步骤S1、针对深度学习模型,采用容器化技术将深度学习模型的训练任务所需用到的底层物理资源整合成逻辑资源池,并建立深度学习模型的训练任务中的指令与逻辑资源池之间的调度关系;
步骤S2、采用消息队列对深度学习模型的训练任务的执行进行控制,以便完成深度学习模型的训练任务;
步骤S3、采用容器化技术、消息队列并结合深度学习模型的训练任务的生命周期对训练中和/或训练后的深度学习模型进行自动化管理。
本发明上述的管理方法中,深度学习模型采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型或堆叠自动编码器模型。
本发明上述的管理方法中,采用消息队列对深度学习模型的训练任务的执行的控制包括对所述训练任务的启动、停止以及暂停。
本发明上述的管理方法中,深度学习模型的训练任务的生命周期通过人工或根据训练任务的过程特征确定其用于执行训练数据和/或模型文件保存的特定化节点。
本发明上述的管理方法中,所述自动化管理的内容包括对深度学习模型的训练任务的执行过程的跟踪以及对训练任务的执行过程中训练数据和执行过程后模型文件的保存。
本发明还提出了一种深度学习模型训练的管理系统,包括以下步骤:
物理资源管理模块(100),用于针对深度学习模型,采用容器化技术将深度学习模型的训练任务所需用到的底层物理资源整合成逻辑资源池,并建立深度学习模型的训练任务中的指令与逻辑资源池之间的调度关系;
训练任务执行控制模块(200),用于采用消息队列对深度学习模型的训练任务的执行进行控制,以便完成深度学习模型的训练任务;
训练任务数据管理模块(300),用于采用容器化技术、消息队列并结合深度学习模型的训练任务的生命周期对训练中和/或训练后的深度学习模型进行自动化管理。
本发明上述的管理系统中,深度学习模型采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型或堆叠自动编码器模型。
本发明上述的管理系统中,采用消息队列对深度学习模型的训练任务的执行的控制包括对所述训练任务的启动、停止以及暂停。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市康拓普信息技术有限公司,未经深圳市康拓普信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811336316.2/2.html,转载请声明来源钻瓜专利网。