[发明专利]用于库存控制和优化的强化学习系统和方法在审
| 申请号: | 201980071774.4 | 申请日: | 2019-10-21 |
| 公开(公告)号: | CN113056754A | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | R·A·阿库纳·阿格斯特;T·菲戈;N·邦杜;A-Q·阮 | 申请(专利权)人: | 艾玛迪斯简易股份公司 |
| 主分类号: | G06Q10/02 | 分类号: | G06Q10/02;G06N3/08 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 郭思宇 |
| 地址: | 法国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 库存 控制 优化 强化 学习 系统 方法 | ||
1.一种用于在系统中对资源管理代理进行强化学习的方法,该系统用于管理具有销售范围的易消亡资源的库存,同时寻求优化由此生成的收入,其中库存具有包括易消亡资源的剩余可用性和销售范围的剩余时段的相关联状态,该方法包括:
生成多个动作,每个动作包括发布定义相对于库存中剩余的易消亡资源的定价时间表的数据;
响应于所述多个动作,接收对应的多个观察,每个观察包括与库存相关联的状态的过渡以及从易消亡资源的销售生成的收入形式的相关联报酬;
将接收到的观察存储在重放存储器存储库中;
根据优先化的重放采样算法,从重放存储器存储库中周期性地采样随机化的观察批,其中在整个训练时期内,从有利于选择与接近终端状态的过渡对应的观察的分布朝着有利于选择与接近初始状态的过渡对应的观察的分布,逐步适配用于选择随机化的批中的观察的概率分布;以及
使用每个随机化的观察批来更新神经网络的权重参数,该神经网络包括资源管理代理的动作-值函数近似器,使得在提供有输入库存状态和输入动作时,神经网络的输出更加紧密近似于在输入库存状态下生成输入动作的实际值,
其中神经网络可以被用于选择根据与库存相关联的对应状态而生成的所述多个动作中的每个动作。
2.如权利要求1所述的方法,其中神经网络是深度神经网络。
3.如权利要求1或2所述的方法,还包括通过以下操作来初始化神经网络:
确定与现有收入管理系统相关联的值函数,其中值函数将与库存相关联的状态映射到对应的估计值;
将值函数翻译成适于资源管理代理的对应的经翻译的动作-值函数,其中翻译包括将时间步长尺寸匹配到与资源管理代理相关联的时间步长并将动作维度添加到值函数;
采样经翻译的动作-值函数以生成用于神经网络的训练数据集;以及
使用训练数据集来训练神经网络。
4.如权利要求1至3中的任一项所述的方法,还包括配置资源管理代理,以在使用神经网络的动作-值函数近似与基于动作-值函数的表格表示的Q学习方法之间切换,其中切换包括:
对于每个状态和动作,使用神经网络计算对应的动作值,并用计算出的值填充动作-值查找表中的条目;以及
切换到使用动作-值查找表的Q学习操作模式。
5.如权利要求4所述的方法,其中切换还包括:
采样动作-值查找表以生成用于神经网络的训练数据集;
使用训练数据集来训练神经网络;以及
切换到使用经训练的神经网络的神经网络功能近似操作模型。
6.如权利要求1至4中的任一项所述的方法,其中生成的动作被传输到市场模拟器,并且从市场模拟器接收观察。
7.如权利要求6所述的方法,其中市场模拟器包括模拟的需求生成模块、模拟的预约系统和选择模拟模块。
8.如权利要求7所述的方法,其中市场模拟器还包括一个或多个模拟的竞争库存系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾玛迪斯简易股份公司,未经艾玛迪斯简易股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980071774.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





