[发明专利]一种基于深度强化学习的作业车间自适应调度方法在审
申请号: | 202210406935.4 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114707881A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 干雪梅;李少波;张钧星;张安思;左颖 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/04;G06N3/04;G06N3/08 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 胡绪东 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 作业 车间 自适应 调度 方法 | ||
本发明公开了一种基于深度强化学习的作业车间自适应调度方法,在近端策略优化算法中设计优化的动作策略和异步更新机制,形成直接高效探索和异步更新近端策略优化算法,基于直接高效探索和异步更新近端策略优化算法,将图神经网络与原始状态信息的分层非线性细化相结合,设计了一种端到端的强化学习方法,基于此,获得一个自适应调度系统。本发明的直接高效探索和异步更新近端策略优化算法具有高级鲁棒性,调度得分比近端策略优化算法提高5.6%,最小完成时间比深度Q网络算法降低8.9%。实验结果证明了所提出的自适应调度策略的有效性和通用性。
技术领域
本发明属于作业车间自适应调度技术领域,涉及一种基于深度强化学习的作业车间自适应调度方法。
背景技术
随着信息技术在制造业中的发展,智能制造和可重构制造应运而生。作业车间调度问题由于能够最优地分配有限的资源,提高生产效率而备受关注。JSSP本质上是一个组合优化问题,传统上区分精确算法(数学方法)和近视算法方法。解决JSSP的精确算法主要基于运筹学产生,如数学规划法,拉格朗松弛法以及分支界限法等。这些方法从理论上可以得出最优解。然而因为该方法需要精准的建模和大量的计算,所有多数还停留在理论层面而不能应用于实际生产。
为了解决这一问题,许多学者将目光转移到了近似算法,如优先规则或元启发式算法。这些优先规则,如先进先出(First In First,FIFO)、最长处理时间(LongestProcessing Time,LPT)、大部分剩余操作(Most Operation Remaining,MOPR)、大部分剩余处理时间(Most Work Remaining,MWKR)等,计算速度更快,自然能够处理实践中的不确定性,但容易短视而陷入局部最优,难以获得全局最优解。当调度规模扩大时会导致调度解得质量下降。学者也提出了许多基于领域知识的复合规则,表现出了良好的调度性能。设计一个有效的复合调度规则需要大量的先验知识和大量的时间。在元启发式算法方面,有许多的群智能算法,如遗传算法、粒子群算法和蚁群算法等。这些算法通过不断的探索和迭代可以获得相对较优解。然而,元启发式和优先规则面临的相同问题是,一旦调度问题的规模发生变化,调度方案即不适用需要重新运算求解,在大规模生产下,难以想象将生产资源停工长时间甚至几个小时等调度方案。
为了寻求时间成本和算法质量之间的平衡,强化学习(reinforcement learning,RL)被提出来训练调度模型,并在实际调度案例中获得了许多成功的应用。还有两个问题需要关注。首先,由于人工指标的存在,车间状态的特征提取会受到人为的影响。其次,将调度规则作为动作空间,由于工作顺序的选择回到了规则的选择,必然会耗费更多的时间。
许多学者将强化学习(reinforcement learning,RL)应用于调度策略的研究,为作业车间调度的高效决策提供了新的途径和方向。强化学习(reinforcement learning,RL)是不需要预先准备标签数据的无监督学习。在标签数据难以收集和获取的情况下,具有独特的优势。作业车间可以看作是一个类似的场景,其中代理根据当前车间状态选择操作。车间调度过程可以转化为如图1所示的马尔可夫决策过程(Markov decision process,MDP),其关键要素为状态、行动和奖励。
RL在调度中的应用主要可以分为以下四类。首先,将强化学习(reinforcementlearning,RL)与启发式算法相结合,通过优化算法参数来提高算法性能;其次,将强化学习(reinforcement learning,RL)与优先级规则相结合,将规则集合设计为动作空间;强化学习(reinforcement learning,RL)用于在每个调度点上寻找最优规则,以达到最优策略。第三,将工件加工的工序直接设计为动作空间。强化学习(reinforcement learning,RL)直接选择每个调度点上的工序,即得到最优解。最后,将机器ID或传输材料定义为智能体(agent)选择的动作空间。上述类别通常对应于强化学习(reinforcement learning,RL)的四种不同的动作空间类型,即优化参数、优化规则、加工工序和机器设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210406935.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发动机燃油系统
- 下一篇:一种可准确控制喷氨量的SCR脱硝系统
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理