[发明专利]基于强化学习和运筹学的资源调度规划方法在审
申请号: | 202011549310.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112700099A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 田鹏飞;孙伟 | 申请(专利权)人: | 亿景智联(北京)科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N3/08 |
代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 刘蔼民 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 运筹学 资源 调度 规划 方法 | ||
1.基于强化学习和运筹学的资源调度规划方法,其特征在于:包括如下步骤:
S1、需要实现企业相关资源的动态管理;
S2、其次按照企业运营的多种约束条件,利用强化学习和运筹学实现寻找最优的资源调度规划;
S3、最后将动态的资源调度规划能力与企业业务系统对接。
2.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S1中实现企业相关资源的动态管理,利用时空计算引擎将企业运营的资源,数据实现可视化上图,实现资源的网格化管理;
所述资源包括设备、人员、客户、产品和系统。
3.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S2中利用强化学习和运筹学实现寻找最优的资源调度规划,基于运筹学的动态调度方法,通过建立数学模型利用动态规划算法可以快速实现多条件约束下的小规模资源,对于大规模资源的调度规划,利用强化学习结合运筹学来综合实现最优的调度规划。
4.根据权利要求3所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S2中基于运筹学的动态调度方法建立合适的数学模型,将调度问题解释为优化模型,该模型带有目标函数和一些条件约束,对此模型进行有效的求解,采用的方法为动态规划。
5.根据权利要求4所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S2中利用强化学习结合运筹学来综合实现最优的调度规划,根据某种策略选择行为集合中的行为并执行作用于外部环境,环境变迁到下一个状态并且给出智能体这次动作的报酬,以此类推,智能体不断地与环境交互进行学习。
6.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S2中利用强化学习寻找最优的资源调度规划,首先设定环境的报酬函数,在资源调度规划问题上,报酬函数也是成本函数,算法目标是找到资源调度的成本最小方案;
在每次观测到系统状态后,通过这些状态计算一步报酬函数,其次利用RBF神经网络实现解决值函数的存储和泛化问题,提供给神经网络用来学习的信号是强化学习智能体与环境交互得来的信号,最终实现智能体与环境的本身的交互过程,最后通过可视化仿真环境来对资源调度规划实现评估,具体算法流程如下:
1、初始化RBF神经网络,从文件中读入中心向量、权值和半径值等;
2、观察资源所处状态,计算报酬;
3、观察当前智能体状态,得到可行方向集合,根据行为选择策略,选择行为;
4、执行行为,将状态行为对带入神经网络,前向计算得到行为值函数;
5、找到下一状态的行为值函数最大值,根据学习算法的迭代规则对当前的值函数进行迭代更新;
6、更新RBF神经网络中智能体的状态;
8、判断是否结束,否回到2,重复执行;
9.将神经网络参数存入文件,结束。
7.根据权利要求2所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述可视化仿真环境来对资源调度规划实现评估,首先分析学习率对算法的影响,在折扣型算法Q学习和Sarsa学习里学习率为α,在平均型算法R学习中学习率包括两个参数:行为值函数学习率α和平均性能指标的学习率β;
其次分析折扣率γ对折扣型算法的影响,再次分析各行为选择策略对算法的作用,最后对比总结平均型和折扣型算法的性能差异。
8.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法,其特征在于,所述S3中将资源调度规划与企业业务系统对接,对接的接口支持RPC和RESTFUL模式,并且提供APP端支持,同过业务系统对企业运营做出调度指导,通过BI系统来真实统计运营效率提升效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿景智联(北京)科技有限公司,未经亿景智联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011549310.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挖土运土一体化设备及工作方法
- 下一篇:一种六联动抛光方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理