[发明专利]一种运输轨迹生成方法、装置、终端及存储介质在审

申请号：	202211061263.4	申请日：	2022-08-31
公开（公告）号：	CN115641244A	公开（公告）日：	2023-01-24
发明（设计）人：	刘浩;朱清岩;陈绎泽	申请（专利权）人：	广州市香港科大霍英东研究院
主分类号：	G06Q50/30	分类号：	G06Q50/30;G06N20/00;G06F17/10
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	柯梦云
地址：	511458 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种运输轨迹生成方法装置终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种运输轨迹生成方法，其特征在于，包括以下步骤：

获取道路GPS点数据并进行噪声滤除处理，得到GPS轨迹数据；

基于所述GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集，建立状态-行动值函数、生成策略函数和辨别函数，利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹，并对所述状态-行动值函数、生成策略函数和辨别函数进行参数更新以构建生成模仿强化学习模型；

采用元学习算法，把所述状态-行动值函数、生成策略函数和辨别函数作为所述元学习算法中的元参数，所述元参数进行元迭代训练，进而训练所述生成模仿强化学习模型，根据所述元参数训练得出的任务具体参数来生成运输轨迹。

2.如权利要求1所述的运输轨迹生成方法，其特征在于，所述基于所述GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集，建立状态-行动值函数、生成策略函数和辨别函数，利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹，并对所述状态-行动值函数、生成策略函数和辨别函数进行参数更新以构建生成模仿强化学习模型，具体包括：

获取道路的交通流量信号，把所述交通流量信号作为共享外部信息并入所述GPS轨迹数据中，得到新的GPS轨迹数据；

基于所述新的GPS轨迹数据和马尔科夫决策过程的五个要素中的状态集和行动集，建立状态-行动值函数、生成策略函数和辨别函数，利用最小最大博弈算法把所述辨别函数用于将生成轨迹判别为真实轨迹；

参数化所述状态-行动值函数、生成策略函数和辨别函数，所述状态-行动值函数和生成策略函数以联合训练的方式进行参数更新，其表达式为

其中，为所述状态-行动值函数的损失函数；为所述生成策略函数的损失函数；c为权重系数；

所述状态-行动值函数的参数更新过程符合Q-学习算法为：

其中，为所述状态-行动值函数的损失函数；E为期望奖励；Q_ψ(s_t,a_t)为当前时刻的状态-行动值函数；R(s_t,a_t)为奖励函数，R(s_t,a_t)＝-log D_φ(s_t,a_t)，D_φ(s_t,a_t)为当前时刻的辨别函数；γ作为计算所述期望奖励时的折扣因子；π_θ(a_t+1|s_t+1)为下一时刻的生成策略函数；Q_ψ(s_t+1,a_t+1)为下一时刻的状态-行动值函数；a_t+1为下一时刻的动作表征；

所述生成策略函数的参数更新过程符合梯度下降算法为：

其中，为所述生成策略函数的损失函数；E为所述期望奖励；Q_ψ(s_t,a_t)为所述当前时刻的状态-行动值函数；π_θ(a_t|s_t)为所述当前时刻的生成策略函数；μ为自定义参数；H(π_θ)为所述生成策略函数参数更新过程的正则项；

所述辨别函数进行参数更新，直到所述辨别函数收敛到难以分辨所述生成轨迹和真实轨迹之间的区别，进而构建生成模仿强化学习模型，所述辨别函数的参数更新过程为：

其中，为所述辨别函数的损失函数；E_π为生成策略的期望奖励；为专家策略的期望奖励；D(s_t,a_t)为所述当前时刻的辨别函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市香港科大霍英东研究院，未经广州市香港科大霍英东研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211061263.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种医用抗菌PP木浆复合无纺布的生产装置及方法
下一篇：一种具有可移动式开关柜托架装置的开关柜

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q50-00 专门适用于特定经营部门的系统或方法，例如公用事业或旅游
G06Q50-02 .农业；渔业；矿业
G06Q50-04 .制造业
G06Q50-06 .电力、天然气或水供应
G06Q50-08 .建筑
G06Q50-10 .服务

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种运输轨迹生成方法、装置、终端及存储介质在审

专利文献下载