[发明专利]一种运输轨迹生成方法、装置、终端及存储介质在审
| 申请号: | 202211061263.4 | 申请日: | 2022-08-31 |
| 公开(公告)号: | CN115641244A | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 刘浩;朱清岩;陈绎泽 | 申请(专利权)人: | 广州市香港科大霍英东研究院 |
| 主分类号: | G06Q50/30 | 分类号: | G06Q50/30;G06N20/00;G06F17/10 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 柯梦云 |
| 地址: | 511458 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 运输 轨迹 生成 方法 装置 终端 存储 介质 | ||
1.一种运输轨迹生成方法,其特征在于,包括以下步骤:
获取道路GPS点数据并进行噪声滤除处理,得到GPS轨迹数据;
基于所述GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集,建立状态-行动值函数、生成策略函数和辨别函数,利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹,并对所述状态-行动值函数、生成策略函数和辨别函数进行参数更新以构建生成模仿强化学习模型;
采用元学习算法,把所述状态-行动值函数、生成策略函数和辨别函数作为所述元学习算法中的元参数,所述元参数进行元迭代训练,进而训练所述生成模仿强化学习模型,根据所述元参数训练得出的任务具体参数来生成运输轨迹。
2.如权利要求1所述的运输轨迹生成方法,其特征在于,所述基于所述GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集,建立状态-行动值函数、生成策略函数和辨别函数,利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹,并对所述状态-行动值函数、生成策略函数和辨别函数进行参数更新以构建生成模仿强化学习模型,具体包括:
获取道路的交通流量信号,把所述交通流量信号作为共享外部信息并入所述GPS轨迹数据中,得到新的GPS轨迹数据;
基于所述新的GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集,建立状态-行动值函数、生成策略函数和辨别函数,利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹;
参数化所述状态-行动值函数、生成策略函数和辨别函数,所述状态-行动值函数和生成策略函数以联合训练的方式进行参数更新,其表达式为
其中,为所述状态-行动值函数的损失函数;为所述生成策略函数的损失函数;c为权重系数;
所述状态-行动值函数的参数更新过程符合Q-学习算法为:
其中,为所述状态-行动值函数的损失函数;E为期望奖励;Qψ(st,at)为当前时刻的状态-行动值函数;R(st,at)为奖励函数,R(st,at)=-log Dφ(st,at),Dφ(st,at)为当前时刻的辨别函数;γ作为计算所述期望奖励时的折扣因子;πθ(at+1|st+1)为下一时刻的生成策略函数;Qψ(st+1,at+1)为下一时刻的状态-行动值函数;at+1为下一时刻的动作表征;
所述生成策略函数的参数更新过程符合梯度下降算法为:
其中,为所述生成策略函数的损失函数;E为所述期望奖励;Qψ(st,at)为所述当前时刻的状态-行动值函数;πθ(at|st)为所述当前时刻的生成策略函数;μ为自定义参数;H(πθ)为所述生成策略函数参数更新过程的正则项;
所述辨别函数进行参数更新,直到所述辨别函数收敛到难以分辨所述生成轨迹和真实轨迹之间的区别,进而构建生成模仿强化学习模型,所述辨别函数的参数更新过程为:
其中,为所述辨别函数的损失函数;Eπ为生成策略的期望奖励;为专家策略的期望奖励;D(st,at)为所述当前时刻的辨别函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市香港科大霍英东研究院,未经广州市香港科大霍英东研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211061263.4/1.html,转载请声明来源钻瓜专利网。





