[发明专利]一种基于对抗生成模仿学习的自动驾驶控制方法有效
申请号: | 202110954992.1 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113635909B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 崔建勋;曲明成 | 申请(专利权)人: | 崔建勋;曲明成 |
主分类号: | B60W50/00 | 分类号: | B60W50/00;B60W60/00;B60W40/02;B60W40/10;B60W40/105;B60W30/12;B60W30/14;B60W30/18 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 张利明 |
地址: | 150090 黑龙江省哈尔滨市*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 生成 模仿 学习 自动 驾驶 控制 方法 | ||
1.一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
其中,sk为第k个样条曲线位移;所述第k个样条曲线为第i-1个采样点和第i个采样点间路径曲线,ak、bk、ck、dk、ek分别表示第k个样条曲线的多项式系数;
以加速度和颠簸程度最小,且保持车道曲线的连续性为目标,对速度进行规划,具体为:
其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;为表示t时刻,第i采样点处位移的一阶导数;为表示t时刻,第i个采样点处位移的二阶导数,为表示t时刻,第i个采样点处位移的三阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;表示第k个样条曲线的末端时刻的一阶导数,表示第k+1个样条曲线的初始时刻的一阶导数,表示第k个样条曲线的末端时刻的二阶导数,表示第k+1个样条曲线的初始时刻的二阶导数;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
2.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
3.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔建勋;曲明成,未经崔建勋;曲明成许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954992.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于期权定价模型的商业承兑汇票信用评分方法及系统
- 下一篇:一种真空筛分设备