[发明专利]基于多Agent共享Q学习的疏散仿真方法及系统有效
申请号: | 201810982525.8 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109086550B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 刘弘;段培永;韩延彬;李梁;陆佃杰;张桂娟;李焱;郑向伟 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06Q10/04;G06Q50/26 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于多Agent共享Q学习的疏散仿真方法及系统,搭建疏散场景;搭建人群疏散双层控制机制,上层空间由管理Agent、导航Agent及知识库构成,下层空间是待疏散的行人;对人群分组,各群组选出引领者,建立群组与导航Agent的关联,每组的引领者对应一个导航Agent;各导航Agent在引导各组疏散的过程中,把实时的信息放到管理Agent管理的公告板上;多Agent采用共享的Q学习算法进行学习,共享学习的结果实时发送给导航Agent,以便导航Agent根据全局疏散情况进行路径规划;各群组按照对应导航Agent的引导,跟随引领者向疏散出口疏散。 | ||
搜索关键词: | 疏散 群组 共享 知识库 路径规划 人群疏散 上层空间 双层控制 下层空间 公告板 场景 分组 关联 学习 管理 人群 全局 出口 | ||
【主权项】:
1.基于多Agent共享Q学习的疏散仿真方法,其特征是,包括:步骤(1):从视频中实时获取环境信息及人群分布信息,搭建疏散仿真场景;设置用于人群疏散控制的双层空间,上层空间,包括:管理Agent、导航Agent和知识库,下层空间,包括:待疏散的行人;对人群分组,每组人群选出一个引领者,每组的引领者与对应的导航Agent连接,每个导航Agent均与管理Agent连接;步骤(2):每个导航Agent引导对应的组进行疏散,同时每个导航Agent维护自身的Q表,还把实时获取的信息上传给管理Agent;步骤(3):每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表,按设定周期采用共享的Q学习算法进行学习,根据学习结果对导航Agent自身的Q表进行更新;每个导航Agent根据更新后的结果对路径进行规划,并将规划的路径发送给引领者,引领者根据导航Agent发送过来的信息,引领待疏散的行人进行疏散;每个导航Agent引导对应的组进行疏散的具体步骤为:步骤(201):根据视频中已知的疏散路径,初始化疏散轨迹集合;步骤(202):依据疏散轨迹集合,建立疏散导航拓扑图;所述疏散导航拓扑图,包括:若干个疏散路径,每一个疏散路径上包括若干个导航点,两个相邻的导航点之间的疏散路径称为路段;所述导航点为障碍物或者出口;导航点与导航点之间的距离作为路段的权重;步骤(203):先构造状态集合,再构造行为集合,根据状态集合和行为集合确定执行策略,根据反馈集合调整执行策略;计算累积加权奖赏的数学期望,根据最大期望值寻找最优路径,最后利用最优路径更新疏散路径,执行疏散仿真;进入步骤(204);步骤(204):判断新得到的路径是否比原有路径奖惩值更高,如果比原有路径奖惩值高,则采用新路径,否则返回步骤(203);步骤(205):沿新路径继续前行,更新位置;步骤(206):判断是否疏散完毕;如果是,则终止;否则采用新位置更新疏散轨迹集合;返回步骤(202);所述步骤(203)的步骤为:所述状态集合,用S表示,包括:所有导航点位置和引领者当前位置;所述行为集合,用A表示,包括:从引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为;所述执行策略,用π表示,用于描述从行为集合中选择某个导航点位置,进而更换位置的概率;π(a|s)=P[At=a|st=s];其中,π(a|s)表示在状态s下选择行为a的概率;At是在t时刻的动作,St是在t时刻的状态,s是状态集合S中的一个状态,a是行为集合A中的一个行为;所述反馈集合,包括:对每次所选择的导航点的评估值rt:rt=R(π(a|st),E);其中,a表示选择行为,st为t时刻引领者的位置,π(a|st)表示引领者在t时刻的位置处做出选择行为a的概率;E表示奖赏标准;R(π(a|st),E)表示奖赏函数;其中,奖赏标准E的计算公式为:E=w1×Dis+w2×Den+w3×Tim+w4×Hea其中:w1、w2、w3和w4是权重,初始值均为0.25;Dis是进行归一处理后的从当前位置到下一个导航目标点的路径距离;Den是进行归一处理后的从当前位置到下一个导航目标点的路径密度;Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间;历史数据包括从导航点到导航点之间到达的时间及经过的人的次数;预计到达时间是历史到达时间的平均值;Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度,即曾经选择该路径人数之和与选择各路径的人数之和的比值;
根据状态集合、行为集合和反馈集合,计算累积加权奖赏的数学期望Vπ(s):
其中,γ∈[0,1]为折扣因子,rt为t时刻的奖赏,st为t时刻的状态;Eπ表示执行选择策略π的奖惩标准,rt+k表示t+k时刻的奖赏,st=s表示st是状态集合S里的一个状态;对于任意策略π,t时刻在状态st的值函数Vπ(st)表示为:
其中,P(st+1|st,at)表示位置转移概率,Vπ(st+1)表示对于任意策略π,t+1时刻在位置st+1的值函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810982525.8/,转载请声明来源钻瓜专利网。