[发明专利]自动驾驶模型训练方法及数据处理设备有效

申请号：	202111017730.9	申请日：	2021-08-31
公开（公告）号：	CN113449823B	公开（公告）日：	2021-11-19
发明（设计）人：	沈庆阳	申请（专利权）人：	成都深蓝思维信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00;G07C5/08
代理公司：	成都极刻智慧知识产权代理事务所(普通合伙) 51310	代理人：	张红平
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动驾驶模型训练方法数据处理设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供的自动驾驶模型训练方法及数据处理设备，通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据，然后将经过筛选后的经验数据存储至共享的目标回放缓存，多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时，结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此，在整个训练过程中，由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享，提高了训练的效率，并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的参数更新条件，可以使整个学习过程更稳定。

技术领域

本申请涉及自动驾驶技术领域，具体而言，涉及一种自动驾驶模型训练方法及数据处理设备。

背景技术

自动驾驶技术是人工智能在现实世界中最具有实际意义的应用之一，大规模地实现自动驾驶技术可以有效地减少由人类驾驶员的过失，如疲劳驾驶、注意力分散、超速和危险驾驶等不安全行为所造成的经济及社会损失。

自动驾驶技术的实现目前主要依赖于基于机器学习的自动驾驶模型，由自动驾驶模型根据驾驶时采集的行驶环境数据确定出动作策略，从而控制车辆自动地执行相应的动作。在一些针对自动驾驶模型的训练方案中，采用设置虚拟驾驶场景（包括虚拟的道路、障碍或天气物等），获取虚拟车辆在虚拟驾驶场景中行驶时通过虚拟传感器采集的行驶环境数据，然后训练自动驾驶模型根据行驶环境数据确定出合适的动作策略来控制虚拟车辆，从而使自动驾驶模型学习到针对不同环境时需要采用的驾驶动作。

但是，这些自动驾驶模型的训练方案中，或存在训练速度较快但训练过程不稳定的问题，或存在训练过程较稳定但训练速度较慢的问题，难以兼顾训练速度和训练过程的稳定性。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种自动驾驶模型训练方法，所述方法应用于数据处理设备，所述数据处理设备中预先配置有多个并行运行的学习模块；所述方法包括：

针对多个并行运行的学习模块中的每个所述学习模块，在启动一轮次模型训练时，通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型；所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络，所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络；其中，每一轮次的模型训练包括多个训练步骤；

在每个训练步骤中，通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据，并将所述在线经验数据存储至所述学习模块的在线回放缓存中；其中，所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据，所述第一行驶环境数据为虚拟车辆在虚拟驾驶场景中行驶时，由所述虚拟车辆对应虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据；所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作；所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据；所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值；

在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新；

在完成一轮次模型训练后，根据所述目标回放缓存中各共享经验数据，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，对所述学习模块的在线经验数据进行筛选，将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据；

针对任意一个所述学习模块，在训练过程中，当满足预设模型参数更新条件时，获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都深蓝思维信息技术有限公司，未经成都深蓝思维信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111017730.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种油类设备中油的氢气含量、压力及温度在线监测装置
下一篇：微处理器、数据处理方法、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自动驾驶模型训练方法及数据处理设备有效

专利文献下载