[发明专利]基于强化学习和运筹学的资源调度规划方法在审
申请号: | 202011549310.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112700099A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 田鹏飞;孙伟 | 申请(专利权)人: | 亿景智联(北京)科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N3/08 |
代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 刘蔼民 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 运筹学 资源 调度 规划 方法 | ||
本发明公开了基于强化学习和运筹学的资源调度规划方法,包括如下步骤:S1、需要实现企业相关资源的动态管理;S2、其次按照企业运营的多种约束条件,利用强化学习和运筹学实现寻找最优的资源调度规划;S3、最后将动态的资源调度规划能力与企业业务系统对接,所述S1中实现企业相关资源的动态管理,利用时空计算引擎将企业运营的资源,数据实现可视化上图,实现资源的网格化管理,本发明集成数据管理、深度学习和运筹学核心算法、应用系统于一体,实现企业资源调度的最优安排,通过基于地图的可视化UI界面输出,便于人员的使用和管理,本发明对后台规则和算法做封装,只需要通过操作前端UI界面即可实现资源的智能调度规划。
技术领域
本发明涉及人工智能技术领域,具体为基于强化学习和运筹学的资源调度规划方法。
背景技术
在企业运营管理中,有三个核心问题资源管理、需求和销量预测、资源的调度安排,广泛意义上的资源包括设备、人员、客户、产品、系统等等,随着企业运营管理越来越精细,甚至做到网格化的管理,资源的调度安排变得越来越重要,例如人员的排岗、客户探访排班、设备产品的动态调度等;
基于强化学习和运筹学的资源调度规划,既继承了传统运筹学调度的能力,又利用人工智能的方式提升了调度的通用性;
在运筹学(OR)研究中,调度被认为是一类重要的组合优化问题;在控制理论研究中,调度属于最优控制问题,动态调度是信息不完全的一类调度,在环境不确定因素和扰动的影响下,需要不断的改变调度策略,可以认为是调度策略优化的过程;
强化学习作为机器学习的一种,它组合了动态规划、随机逼近和函数逼近的思想,强化学习很适合于解决动态调度问题,强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,求解强化学习问题所使用的算法可分为策略搜索算法和值函数(valuefunction)算法两类;
标准强化学习框架结构由状态感知器、学习器和动作选择器三个模块组成,状态感知器把环境状态映射成Agnet内部感知,动作选择器根据当前策略选择动作作用于环境,学习器根据环境状态的奖赏值以及内部感知,更新的策略知识,强化学习技术的基本原理是如果的某个动作导致环境正的奖赏强化信号,那么以后产生这个动作的趋势便会加强,反之,产生这个动作的趋势减弱;
动态调度有时呈现的是一类复杂的调度问题,由于系统本身的复杂性,调度问题处理的不再是单一性能指标的优化,而通常是对多约束下的多目标综合考虑。
发明内容
本发明提供基于强化学习和运筹学的资源调度规划方法,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于强化学习和运筹学的资源调度规划方法,包括如下步骤:
S1、需要实现企业相关资源的动态管理;
S2、其次按照企业运营的多种约束条件,利用强化学习和运筹学实现寻找最优的资源调度规划;
S3、最后将动态的资源调度规划能力与企业业务系统对接。
根据上述技术方案,所述S1中实现企业相关资源的动态管理,利用时空计算引擎将企业运营的资源,数据实现可视化上图,实现资源的网格化管理;
所述资源包括设备、人员、客户、产品和系统。
根据上述技术方案,所述S2中利用强化学习和运筹学实现寻找最优的资源调度规划,基于运筹学的动态调度方法,通过建立数学模型利用动态规划算法可以快速实现多条件约束下的小规模资源,对于大规模资源的调度规划,利用强化学习结合运筹学来综合实现最优的调度规划。
根据上述技术方案,所述S2中基于运筹学的动态调度方法建立合适的数学模型,将调度问题解释为优化模型,该模型带有目标函数和一些条件约束,对此模型进行有效的求解,采用的方法为动态规划。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿景智联(北京)科技有限公司,未经亿景智联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011549310.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挖土运土一体化设备及工作方法
- 下一篇:一种六联动抛光方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理