[发明专利]基于深度强化学习混合动作空间的氧气系统调度优化方法在审
申请号: | 202310001606.6 | 申请日: | 2023-01-03 |
公开(公告)号: | CN115965213A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 李丽娟;杨雪;王欢;许晓伟;张印强 | 申请(专利权)人: | 南京工业大学 |
主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q10/04;G06Q50/04;G06N3/048;G06N3/092 |
代理公司: | 湖南泽达信专利代理事务所(普通合伙) 43284 | 代理人: | 胡仿 |
地址: | 211816 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 混合 动作 空间 氧气 系统 调度 优化 方法 | ||
1.一种基于深度强化学习混合动作空间的氧气系统调度优化方法,包括如下步骤:
步骤一、氧气系统调度优化
1.1确定氧气系统调度优化问题:钢铁企业氧气系统分为三个子系统:氧气发生系统、存储系统和使用系统;安排系统中各设备的运行方式和生产水平,在满足用户氧气需求的同时,提高氧气利用率,实现利益最大化;
1.2优化目标
1.3约束条件
步骤二、基于drl的方法
步骤三、结果和分析
为验证HAC算法用于氧气系统调度优化的有效性与优越性,首先给出了采用HAC算法调度与实际生产的对比实验结果,并对所提出的算法结构进行分析;
3.1算法验证与分析
混合actor-critic算法用神经网络拟合强化学习策略函数和状态动作价值函数,具有3个神经网络,即离散actor网络、连续actor网络和critic网络,将神经网络隐藏层层数设为2层,每层设置200个神经元,隐藏层的激活函数均为负斜率为0.01的ReLU函数,输出层为全连接层;采用深度学习常用思想选取超参数然后根据实际训练数据进行试错调整;
3.2算法结构分析对比
设置了额外奖励函数,考虑峰时谷时设备用电量对整个调度结果的影响;为验证其合理性,将原算法与不设置额外奖励的算法分别对氧气系统进行调度优化,将调度优化后的策略进行分析计算,按所提出的目标函数计算各自经济指标进行比较;不设置额外奖励函数,峰谷时设备用电量差别较小,整体经济效益平稳低于原算法调度结果;然而用原算法调度后,峰时机器消耗电量低于谷时,整体经济效益更高,比不设置额外奖励函数平均经济效益多24%;
此外,混合actor-critic算法建立了关联矩阵D,表明两个actor网络之间的耦合关系;为验证设置关联矩阵的必要性,对HAC算法去掉关联矩阵后进行氧气系统调度策略求解;
3.3不同算法结果对比
将混合actor-critic算法与MP-DQN算法、P-DQN算法以及PADDPG算法进行对比;混合actor-critic算法奖励曲线约在10000回合达到收敛且奖励值最高,MP-DQN算法与P-DQN算法收敛时间较长并且奖励值低于HAC算法,而PADDPG算法虽在收敛时间上较快但平均奖励值过低无法满足调度优化需求。
2.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法,其特征在于,所述步骤1.2包括:
以氧气系统的经济指标F为调度优化目标,考虑外售液氧收入、各设备用电消耗及氧气释放损失,其数学表达式为:
F=Jp-E-λ·Jr (1)
其中,JP是氧气系统液氧外售收入,E是设备用电产生的费用,Jr是氧气系统释放损失;
氧气系统液氧外售收入JP为:
其中f液氧单价,为外售的液氧量;为第i个制氧机在t时刻液氧产量,为第j个液化器t时刻液化量,为第g个气化器t时刻气化量;Δti、Δtj、Δtg为各制氧机、液化器、气化器开启时长,αi、βj和ρg分别表示制氧机、液化器和气化器的设备开启与否,离散化为0-1变量即:
βj和ρg与αi类似;
设备用电成本E为:
为第i个制氧机在t时刻气态氧产量,和分别为制氧机、液化器和气化器用电成本,Hi(t)、Cj(t)和Bg(t)为各制氧机、液化器和气化器产量与耗电量的对应函数,E(t)为实际电价;
氧气系统释放损失Jr为:
氧气单价,氧气消散量,是在t时刻氧气储存量,在t时刻氧气使用量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310001606.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:型芯装置及模具
- 下一篇:一种水稻专用全生物降解双层地膜及其制备方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理