[发明专利]基于元强化学习的车辆自适应的自动驾驶决策方法及系统有效

申请号：	202110356309.4	申请日：	2021-04-01
公开（公告）号：	CN113044064B	公开（公告）日：	2022-07-29
发明（设计）人：	章宗长;俞扬;周志华;胡亚飞;徐峰	申请（专利权）人：	南京大学
主分类号：	B60W60/00	分类号：	B60W60/00;G05D1/02
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习车辆自适应自动驾驶决策方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，包括如下步骤：

S1、初始化系统，初始化自动驾驶系统的记忆模块、感知模块、编码模块、决策模块和控制模块，系统的虚拟环境模块由人为预设；

S2、基于虚拟环境数据库提供的各种任务模型，与之交互采集数据，交互数据以transition的格式表示；对于不同的任务模型，都在记忆模块初始化一个新的分区βⁱ，保存与任务相应的数据；

S3、对于记忆模块中的某个分区βⁱ，从中采样一批样本，用集合c_i表示，将c_i输入任务编码模块，并从获得的编码的分布中采样获得一个任务的编码表示z_i；任务编码模块和决策模块均由深度神经网络表示，使用φ表示任务编码模块的网络参数，θ_π表示决策模块中策略网络的参数，θ_Q表示决策模块中评价网络的参数；

S4、在决策模块中，使用SAC强化学习算法，解决当前编码z_i下的任务；

S5、在任务编码模块中，从两方面去计算其优化目标，以供任务编码网络的更新；

S6、在任务编码模块中，将任务相似度纳入优化目标，计算并使用Lⁱ_similarity表示优化目标；

S7、对记忆模块的每个单元执行S3到S6的操作；

S8、在任务编码模块中，使用梯度下降算法更新网络参数φ；

S9、在决策模块中，使用梯度下降算法更新网络参数θ_π；

S10、在决策模块中，使用梯度下降算法更新网络参数θ_Q；

S11、重复S3——S10，直至系统收敛，达到最佳性能；

所述S5在任务编码模块中，从两方面去计算其优化目标，以供任务编码网络的更新；第一点，对于从轨迹中得到的任务编码z，最大化任务编码z和轨迹c之间的互信息；第二点，对于从不同任务的回放缓存区中采样得到的轨迹的任务编码，训练一个判别器，使得判别器能够区分任务编码是否属于该轨迹，从而辅助任务编码器的更新；计算并使用Lⁱ_represent来表示相应的损失。

2.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S4中，在软策略迭代的基础上，将输入加入了任务编码z_i使得所有策略都是基于任务的；接下来需要计算策略模块两个网络的优化目标，然后使用梯度更新这两个网络的参数θ_π和θ_Q；对于评价函数，其优化目标如下：

其中：

D指的是与环境交互产生的transition数据对应的分布，P指的是在t时刻的状态s下采取动作a后，t+1时刻状态服从的分布；Q_θ(s_t，a_t|z)指的是评价网络输出的，在任务编码z下，在t时刻的状态s采取动作a后未来累计回报的估计；r(s_t，a_t|z)表示在状态s采取动作a后环境给出的即时奖赏；γ是强化学习设定中的折扣因子，用来平衡即时奖赏与未来的重要性；V(s_t+1|z)是强化学习中的值函数，表示在某一时刻状态为s时，依据当前的策略获得的回报的期望；优化目标就是使待训练网络接近目标网络的值，据此计算并用Lⁱ_critic表示此优化项；对于策略网络，其优化目标形式如下：

上式中N是一个高斯分布，f_φ是参数为φ的表示策略的函数；∈_t是从高斯分布采样得到的噪声因子，π_φ指的是未加噪声的策略函数；上式J_π(φ)表示的优化目标是使得评价函数对当前决策的评分越高越好，使用Lⁱ_actor来表示此项。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110356309.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于加热不燃烧卷烟的相变降温材料及其制备方法
下一篇：加压湿法消解装置

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于元强化学习的车辆自适应的自动驾驶决策方法及系统有效

专利文献下载