[发明专利]基于多智能体深度强化学习的人群疏散仿真方法及系统在审
申请号: | 201910028487.7 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109670270A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 刘弘;郑尚菲 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250358 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 疏散 多智能体 人群疏散 拥挤度 智能体 计数器 初始坐标 仿真场景 局部区域 路径规划 人数计算 梯度算法 面积和 子区域 确定性 出口 协同 场景 反馈 分组 回报 奖励 创建 改进 规划 政策 | ||
本公开公开了基于多智能体深度强化学习的人群疏散仿真方法及系统,根据人群疏散中个体的初始坐标和运动速度创建仿真场景;在疏散场景的每一个疏散出口处设置计数器,根据区域面积和人数计算出口的拥挤度,拥挤度是为在深度强化学习模型中训练路径时进行回报奖励的反馈;根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组,选取处于组内局部区域最前端的个体作为组内领导;利用多智能体深度确定性政策梯度算法MADDPG对领导进行路径规划,将多个领导看作是多个智能体,多个智能体之间相互协同进而选择最佳疏散路径,引领者根据深度强化学习规划好的路径进行疏散;在组内的各个成员在改进社会力下跟随领导进行疏散活动。
技术领域
本发明涉及多智能体强化学习和计算机仿真技术领域,特别是涉及基于多智能体深度强化学习的人群疏散仿真方法及系统。
背景技术
本部分的陈述仅仅是提高了与本公开相关的背景技术,并不必然构成现有技术。
随着城市化进程的不断加快,城市内的建筑物以及人密度也在迅猛增加,随之而来的是公共场所人员大量聚集,而在人员密集的公众场所,由于人们对环境并不熟知,一旦发生突发事件,极易引起如人群拥堵、踩踏等恶性事件,如不能有效地疏散人群就往往会引发群死群伤等恶性事故。如何在突发事件发生时有效的进行灾情控制和人群疏散,从而减免人员伤亡和财产损失是国内外都高度关注的难题。而通过计算机仿真技术来进行场景建模、路径寻优以及人群运动行为建模,可以在达到最佳疏散演练效果的同时将成本最小化,因此,计算机仿真模拟成为研究突发事件下人群疏散的最主要方法。
随着人工智能的发展,人们越来越意识到仿真模拟领域和强化学习的结合可以达到更好的效果。现阶段结合强化学习做路径规划的研究大多数将整个框架视为马尔科夫博弈求解问题,仿真模型中的智能体像马尔科夫决策规定的那样,对整个环境开启“上帝视角”,熟知环境,知道自己所处的位置,状态,从而将环境看成是一个完全可观察的。但是,在现实生活中,如果我们已知了环境信息(各个房间位置,出口位置,身处位置),那么我们对于每条通往出口的路径都已经熟知,通过自我观察以及经验判断,我们还是依据完全可观察的环境信息选择一个并不会太差的出口。相反,当我们身处在一个相对陌生的环境中,这时候没有了以上的“上帝视角”,环境也相应变成部分可观察的。也就是当我们进入某些并不熟悉的公众场所时候,我们对于出口位置了解并不全面,对于自己的所处整个场所相对位置也并不明确。我们对于这种情形进行人群紧急疏散仿真训练的需求相对来说是更加急迫的。
人群疏散仿真模型主要有两种,宏观模型和微观模型。宏观模型从整体出发,不考虑个体行为的局部细节信息。微观模型从个体的角度考虑每个个体与环境的交互,可以弥补宏观模型对行人细节描述的不足。社会力模型就是一种典型的微观模型,社会力模型是Helbing 等人于1995年提出的一个新的行人流模型,在社会力模型中将行人运动描述为力作用的结果,行人运动由自身驱动力、个体间交互力、个体与环境间交互力共同驱动。其中,自身驱动力描述个体向目标运动的期望;个体间交互力反映个体对他人的心理排斥及物理排斥,使个体之间保持一定距离,实现行人运动的碰撞避免;个体与环境间交互力保证个体与障碍物间的安全距离,使行人运动过程中平滑的规避障碍物。
当然,仅利用原始社会力模型进行人群疏散仿真时效果往往并不理想,主要还存在以下问题:第一,大规模人群疏散中社会行为的真实特征应考虑到“群组”,“小团体”等由于心理因素和社会关系形成的人群聚集。第二,没有明确的路径规划知识以至于发生拥堵不能很好的进行出口选择,往往会导致出现出口拥挤的现象。第三,疏散效率仍有待提高。
值得注意的是,在过去15年中,随着强化学习知识理论的不断完善,强化学习领域已经成为一个逐渐成熟的领域。这期间一些优秀实用的框架理论相继提出和应用,大大改进了强化学习原来的单智能体马尔科夫决策过程。尤其是对于陌生的环境,多个智能体无法直接确定自己所处的状态环境,必须根据模型的全域或者部分区域观察结果来推断状态分布,从来进行沟通交流,进行模型知识的共享,从而使得多智能体更加高效的进行协同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910028487.7/2.html,转载请声明来源钻瓜专利网。