[发明专利]一种柔性作业车间批量动态调度优化方法在审
申请号: | 201811226718.7 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109270904A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 贾广跃;陈浩杰;韩磊;张剑;杨龙;付建林 | 申请(专利权)人: | 中车青岛四方机车车辆股份有限公司;西南交通大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 卓仲阳 |
地址: | 266109 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种柔性作业车间批量动态调度优化方法,将批量调度的生产模式和机器故障的动态因素引入到柔性作业车间调度问题中,根据需要延伸其相关的约束,并同时考虑交付期约束,建立以最小化延误时间为目标的BDFJSP问题模型;在问题模型的基础上运用Q学习的方式去训练智能体求解,并根据问题建立合理的状态集、动作集及奖励函数;为了更好的平衡Q学习中的“探索”和“利用”,将ε贪婪搜索结合到Q学习中去,并设立了合理的ε衰减函数;对于求解柔性车间作业调度甚至类似的等离散型优化问题具有重要的意义和显著的工程实际应用价值。 | ||
搜索关键词: | 柔性作业 动态调度 问题模型 求解 调度 车间 车间调度 车间作业 动态因素 机器故障 生产模式 衰减函数 贪婪搜索 训练智能 优化问题 离散型 状态集 最小化 优化 交付 引入 奖励 延伸 平衡 应用 探索 | ||
【主权项】:
1.一种柔性作业车间批量动态调度优化方法,其特征在于,包括以下步骤:A、构建以最小延误时间为目标的BDFJSP数学模型:传统的FJSP问题存在三个基本集合:工件集J(J1,J2,…,Jn);工序集O(O1,1,O1,2,…O1,p1,…,On,pn),其中pn是指工件i的工序数量;机器集M(M1,M2,…Mm);此BDFJSP数学模型是建立在批量调度的模式之上的,因此设立第四个基本集合:批量集K(K1,1,K1,2,…,K1,k1,…,Kn,kn),其中kn是指工件i的批量;本模型的目标函数为最小延误时间,其公式如式(1)所示
式中BNi表示工件i的批次数量;Cik表示第k批工件i的完工时间;Di表示工件i的交付期;针对公式(1)其相关的约束如公式(2)到公式(6)所示1≤BNi≤DMi (2)表示批次数量的范围,式中DMi表示工件i的初始加工批量;
指工件i的所有子批的数量之和等于工件i的数量,式中BDik表示批次k中工件i的数量;
指的同一工件下,每一个工序必须在其先前工序完工后才能开工,式中Sijkm表示第k批工件i的工序j在机器m上的开始加工时间;Eijkm表示第k批工件i的工序j在机器m上的完工时间;
指同一台机器不能在同一时刻加工两个工序;∑xijkm=1 i∈J;j∈O;m∈M;k∈K (6)指同一个工序只能由一台机器加工,式中xijkm表示如果第k批工件i的工序j在机器m上加工xijkm=1,否则xijkm=0;B、在BDFJSP数学模型的基础上根据问题建立合理的状态集、动作集及奖励函数:针对于BDFJSP问题,Q学习的实现关键就是状态集、动作集和奖励函数的实现,其实现如下:a、动作集为了加快Q值收敛速度和结合目标函数为最小延迟时间,选择三种优先级规则取代随机搜索作为动作集,其包括:最小加工时间规则SPT:选择故障机器上加工时间最短的工序进行调度,其公式如(7)所示:operation=min tijm×DMi i∈Jf;j∈Of;m=mf (7)式中operation表示选择的工序集;Jf表示在故障机器上加工的工件集合;Of表示在故障机器上加工的工序集合;mf为故障机器;最小松弛时间规则MST:选择故障机器上松弛时间最小的工序进行调度,即交付期与完工时间的差值最小的工序,其公式如下:operation=min Di‑tijm×DMi i∈Jf;j∈Of;m=mf (8)最小交付期规则EDD:选择故障机器上交付期最小的工序进行调度,其公式如下:operation=min Di i∈Jf (9)b、状态集设置几个变量:BDm表示在故障机器上延误的工件数量;BTm表示机器m的故障时间;BPm:在故障机器m上的剩余工件加工时间之和;DRm表示机器故障时间和故障机器剩余加工工件时间总和的比值,即BTm/BPm;设置了一个空状态,即当机床不发生故障或者故障时间不造成工件延迟的情况下,不采取任何调度方式,其余不同工况下对应的Q值如表1所示:表1 状态划分及对应Q值表![]()
c、奖励函数为了加速Q值收敛,采用常数奖励的方式,即如果调度的结果使得目标函数减少,则给与奖励值r=5,否则给与惩罚值r=‑5,其公式如公式(10)所示:
式中Delaytimenew表示调度后的目标函数值;Delaytimeold表示调度前的目标函数值;C、促使Q学习在BDFJSP问题中实现:将贪婪搜索结合到Q学习中,设立衰减函数,Q学习选择完成动作后,会根据给与的奖励值更新Q值,其更新式如式(11)所示:Qt+1(s,a)=(1‑α)Qt(s,a)+α[rt+γmaxQt*(s',a')] (11)式中Qt(s,a)和Qt+1(s,a)分别代表t时刻和t+1时刻状态s下执行动作a的Q值,时刻t的更新是每当动态因素发生时;α是学习率;γ是折扣因子;rt是执行动作a后获得的奖励值;Qt*(s’,a’)是在执行动作a后转移到状态s’中所有动作中最大的Q值;贪婪搜索:采用ε贪婪搜索结合Q学习,即当产生的随机数小于一个设定值ε时,则随机选择一个动作执行,否则选择Q值最大的动作执行,根据此原理设置衰减函数,其公式如下所示:
式中g是学习的次数,a是一个控制因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中车青岛四方机车车辆股份有限公司;西南交通大学,未经中车青岛四方机车车辆股份有限公司;西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811226718.7/,转载请声明来源钻瓜专利网。