[发明专利]基于深度强化学习的加速器束流轨道控制方法及系统有效

申请号：	201711053326.0	申请日：	2017-10-31
公开（公告）号：	CN108051999B	公开（公告）日：	2020-08-25
发明（设计）人：	唐雷雷;周泽然;宣科	申请（专利权）人：	中国科学技术大学
主分类号：	G05B13/02	分类号：	G05B13/02;G05B13/04
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	喻颖
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习加速器轨道控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于深度强化学习的加速器束流轨道控制方法及系统，其用于将加速器的束流轨道控制在目标状态，所述方法利用训练数据采用深度强化学习方法对深度神经网络进行预训练，存储训练完的深度神经网络的权重参数及轨道控制策略的经验数据；利用束流位置监测器在线获取束流轨道的状态数据，将其馈入到所述深度深度神经网络，将所述深度神经网络的输出耦接到束流轨道校正器；载入所述训练完的深度神经网络的权重数据及轨道控制策略的经验数据，所述深度神经网络通过预测控制并进行在线强化学习调整控制参数将束流轨道自适应稳定控制在目标状态。

技术领域

本发明涉及加速器束流诊断与控制技术领域，尤其涉及一种基于深度强化学习的加速器束流轨道控制方法及系统。

背景技术

在加速器束流诊断与控制技术领域中，通常利用束流轨道反馈控制技术对束流轨道进行校正使束流沿着优化轨道或目标轨道运动以保证束流的品质及稳定性。传统的束流轨道反馈控制技术中使用奇异值分解算法结合PID(比例、积分、微分)控制算法来解决加速器系统束流轨道控制这种大型的多变量输入输出的控制问题，但随着现代加速器工程的发展，加速器系统规模变得越来越庞大，束流轨道的控制参数数量不断增加，与其相关的束流轨道控制问题变得愈加复杂，传统的控制算法虽然在原理及实现上较简单，但实际应用中存在很大的局限性。此外，传统的束流轨道控制方法需要人工去精确测量束流位置监测器(以下简称BPM)与轨道校正器之间的响应矩阵，这在具有数百甚至上千个BPM及轨道校正器的大型加速器上实现需要很大的工作量，且响应矩阵的测量准确性将直接影响轨道控制精度，在现代的加速器系统中由于非线性响应的影响，束流轨道状态与校正动作之间存在非线性映射的关系，因此响应矩阵往往又很难精确地测量得到。同时，由于传统的束流轨道控制器中采用PID控制算法，在实际工程应用阶段对所有的PID控制环路需要进行大量的PID调参工作，由于PID调参非常依赖于工程经验，这也将成为工程实践过程中的难点。当加速器运行条件及外部环境改变时，传统轨道控制方法的控制环路外部参数也会改变，此时又需要耗费大量的人力及时间去重新测量响应矩阵，以及重新调节控制器参数。因此，当前亟需开发更加复杂的方法以克服传统束流轨道控制方法的弊端。

现有技术中存在通过逆强化学习的方法实现直升机的自主飞行，但其研究成果很难应用在高维度状态空间及动作空间的控制场景中，即没能很好地解决“维度灾难”的问题。

加速器中的束流轨道控制问题为一种典型的高维度状态空间及高维度动作空间问题，如何设计一种束流轨道的控制方法以克服传统束流轨道控制方法中需要人工精确测量响应矩阵及PID调参的弊端是目前迫切需要解决的技术难题。

发明内容

针对上述技术问题，本发明的主要目的在于提供一种基于深度强化学习的加速器束流轨道控制方法及系统，以期至少部分地克服现有技术中的大型加速器束流轨道控制中需要人工精确测量响应矩阵及PID调参的难点及弊端，提高束流轨道控制的准确性及鲁棒性。

为实现上述目的，作为本发明的一个方面，本发明提供了一种基于深度强化学习的束流轨道控制方法，包括以下步骤：

步骤S11：在线获取所述加速器的束流轨道状态数据，采用通过深度强化学习方法预训练好的深度神经网络接收所述束流轨道状态数据，并输出用于控制所述加速器束流轨道的动作数据；

步骤S12：给所述深度神经网络加载其在预训练过程中获得的深度神经网络权重数据及轨道控制策略的经验数据，通过预测控制并进行在线强化学习调整控制参数将所述加速器的束流轨道稳定在目标状态。

其中，所述步骤S11中，所述通过深度强化学习方法预训练的深度神经网络是通过束流动力学模型仿真平台生成预训练数据，具体包括以下步骤：

利用束流动力学仿真平台构建所要控制的加速器模型；

在所述加速器模型上进行一系列的校正器动作，根据校正器动作数据及动作前起始束流轨道状态数据得到动作后束流轨道的下一状态数据，利用奖励函数得到所述动作的奖励数据；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711053326.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种液化天然气气液均布器
下一篇：校正质谱检测糖基正确率的方法及产品

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的加速器束流轨道控制方法及系统有效

专利文献下载