[发明专利]一种基于最优解的智能体残障设备投放方法在审
申请号: | 202111161240.6 | 申请日: | 2021-09-30 |
公开(公告)号: | CN114021775A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 唐源;王魁;唐小艳;刘玲意 | 申请(专利权)人: | 成都海天数联科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q50/26;G06N3/08;G06N20/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 肖会 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最优 智能 残障 设备 投放 方法 | ||
本发明涉及一种基于最优解的智能体残障设备投放方法,包括计算得到智能体选择的动作和Q值并进行初始化操作;进行总回合中的一个片段操作,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum‑tree的父节点;判断当前Q值与最优值之间的误差是否在阈值范围内,得到最终智能体选择的动作和Q值。本发明的优点在于:奖励进行分解,每一个智能体的奖励不仅包含自己的奖励,还包括所有智能体共同的奖励,提升了智能体之间的协作性,对智能体学习起到促进作用同时能满足优化目标。
技术领域
本发明涉及设备投放技术领域,尤其涉及一种基于最优解的智能体残障设备投放方法。
背景技术
在机场投放残障设备,可以为残障人士提供服务,方便出行,如何快速,高效的在机场中投放设备至关重要。实际上设备的投放需要根据动态场景进行部署,要满足设备投放的最优覆盖。投放的设备数量越少,所需要花费的资源就少,但是随着设备数量的减少其覆盖范围就会降低;覆盖范围的越大,需要耗费的设备就越多。机场的投放策略要满足设备投放的最优覆盖率,同时要减少设备投放的数量,以及投放过程中能耗的降低。
强化学习作为一种重要手段应用于多agent系统,以获得学习环境中agent交互和协作的最佳策略,现有技术中利用自主开发的警员训练虚拟环境来探索多个agent之间如何学习最优联合行为,在这个环境中不同兵种在不同地形条件下完成合作目标或者在对抗中摧毁对方作战队伍。传统的强化学习方法,如基于值的方法Q-learning、基于概率的方法Policy Gradient等在面对这种大规模多agent系统的学习面临着维数灾难,即当环境较为复杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。
阿里巴巴团队提出的在谷歌的pysc2多agent环境下的新算法BiCNet,在以上两种方法的基础上通过用双向循环神经网络(bidirectional recurrent neural networks,BRNN)来连接每个同质agent(homogeneous agent),通信发生在潜在空间中,以便高层信息可以在agent之间传递,同时异构agent可以使用不同的参数和输出动作集创建.在pysc2这样的复杂环境下,BiCNet显示了先进的性能。但是BiCNet将学习任务制定为零和博弈,考虑的重点在于多agent竞争环境中的微观管理任务,在纯合作无竞争环境中的表现尚不明确。
一个基于参数共享的MADDPG算法(PS-MADDPG),包括三种actor-critic共享组合架构用于解决MADDPG算法可扩展性差的问题。通过确定agent之间交互的程度,即考虑agent是否应该同某一agent进行交互或者仅将其当做环境的一部分而不进行交互,这样将降低算法的复杂度。考虑多个agent在环境中感知和行动的问题,让agent在这些环境中学习通信协议,共享解决任务所需的信息,最大限度地提高它们的共享效用。在多智能体的设置下,AC算法往往会由于独立训练,导致信息共享不足,agent之间的协作能力较差。
因此,如何在满足机场最优覆盖率同时尽可能的减少设备的投放是现阶段需要解决的问题。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种基于最优解的智能体残障设备投放方法,解决了现有技术中存在的不足。
本发明的目的通过以下技术方案来实现:一种基于最优解的智能体残障设备投放方法,所述投放方法包括:
输入智能体的初始状态,计算得到智能体选择的到下一个状态的移动轨迹的动作和Q值并进行初始化操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都海天数联科技有限公司,未经成都海天数联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111161240.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理