[发明专利]一种基于强化学习的铁路机车运行操控系统混合任务调度方法有效

申请号：	201710025977.2	申请日：	2017-01-13
公开（公告）号：	CN106802553B	公开（公告）日：	2019-10-11
发明（设计）人：	赵曦滨;黄思光;黄晋;杨帆;顾明;孙家广	申请（专利权）人：	清华大学
主分类号：	G05B13/02	分类号：	G05B13/02
代理公司：	北京律谱知识产权代理事务所(普通合伙) 11457	代理人：	罗建书
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于强化学习的铁路机车运行操控系统混合任务调度方法，该方法是一种离线学习过程。方法首先采集机车运行操控系统实际运行或仿真实验中的混合任务集数据，形成混合任务集合并对混合任务集合中的每个任务进行规则化标记。然后将规则化标记后的任务集合作为强化学习系统的输入，构成强化学习环境。强化学习系统应用强化学习算法，考察机车运行操控系统的调度目标进行迭代学习过程，生成对应混合任务集合的<状态‑规则>对应关系表，并将该<状态‑规则>关系表保存在数据库中。从数据库中挑选出现频率最高的规则作为当前状态的最优规则，形成最终的<状态‑规则>对应关系表。机车操控系统运行中可根据<状态‑规则>对应关系表，指导生成混合任务的实时调度序列，实现任务调度。
搜索关键词：	一种基于强化学习铁路机车运行操控系统混合任务调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于强化学习的铁路机车运行操控系统混合任务调度方法，其特征在于，所述的混合任务包括：周期性实时任务、非周期性实时任务以及非实时任务；所述的混合任务调度方法包括：步骤(1)、采集铁路机车运行操控系统实际运行或仿真实验中的混合任务集数据，形成混合任务集合；步骤(2)、将混合任务集合中的每个任务进行规则化标记；步骤(3)、将规则化标记后的任务集合作为强化学习系统的输入，构成强化学习环境，强化学习系统应用强化学习算法，根据机车运行操控系统的调度目标进行迭代学习过程；步骤(4)、强化学习系统生成对应机车运行操控系统混合任务集合的多个<状态‑规则>关系表，并将该多个<状态‑规则>关系表保存在数据库中；步骤(5)、针对数据库中保存的多个<状态‑规则>表，对于每个状态，挑选出现频率最高的规则作为当前状态的最优规则，形成最优<状态‑规则>对应关系表；步骤(6)、根据最优<状态‑规则>对应关系表，指导生成机车运行操控系统混合任务的实时调度序列，实现任务调度，所述强化学习算法基于Q学习算法，基于Q学习算法的强化学习过程如下：(3.1)初始化矩阵Q：该矩阵为二维矩阵，其中每一行对应一种铁路机车运行操控系统状态，每一列则对应一种动作，动作包括单一调度规则和两元组合的调度规则，初始时将矩阵Q的值设为0；(3.2)从强化学习环境中获取铁路机车运行操控系统的当前状态；(3.3)根据搜索策略选择动作，动作为调度规则，从动作集合空间中选择；(3.4)执行动作并获得奖惩函数返回奖励值，对奖惩函数的设计形式如下：r＝w₁F(A)+w₂F(B)+w₃F(C)其中，A、B、C分别为铁路机车运行操控系统当前状态下周期性实时任务集合、非周期性实时任务集合以及非实时任务集合，F函数是上述的针对每种类型任务调度情况的量化函数，w₁、w₂、w₃分别指每种任务类型的调度效果对调度优化目标的贡献权重，通过改变该权重值可以获取不同的调度优化目标；针对不同任务类型的F函数设计如下：其中e_i为周期性任务i的执行结束时间，d_i为周期性任务i的截止时间，c_i为周期性任务i的执行时间，γ为常量且大于0，周期性任务超截止期时间越长，对应的F(A)函数值越大，设置w₁＜0，则惩罚值也越大；其中a_i为非周期性实时任务的到达时间，s_i为非周期性实时任务的开始执行时间，c_i为非周期性实时任务i的执行时间，α与γ为常量且均大于0；非周期性实时任务等待时间和任务完成后超截止期时间越长则F(B)的函数值越大，相应给予越大的惩罚值，其中a_i为非实时任务的到达时间，s_i为非实时任务的开始执行时间，c_i为非实时任务i的执行时间，α为常量且大于0；(3.5)根据即时的奖励值，更新Q矩阵和当前状态迁移；对Q矩阵的状态更新可根据以下公式实现：s＝s_t+1其中Q(s，a)指系统状态为s选择动作为a的Q值，r_i，t为奖惩值，0＜γ≤1是折扣率，智能主体重复地感知当前状态s，从允许动作集合空间中选择某个动作a，执行此动作，获得奖励值，并观察下一个动作，同时更新Q矩阵，算法迭代次数越高，得到的Q值表越真实合理，从而得到较优解，(3.6)任务结束条件是完成铁路机车运行操控系统混合任务集里所有任务的调度或者系统任务集进入不可调度的情形。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710025977.2/，转载请声明来源钻瓜专利网。

上一篇：一种汽车空调电机的控制方法、装置及汽车
下一篇：一种双输入双输出网络控制系统时延补偿方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的铁路机车运行操控系统混合任务调度方法有效

专利文献下载