[发明专利]用于计算机辅助地控制和/或调节技术系统的方法在审
申请号: | 201480018380.X | 申请日: | 2014-01-22 |
公开(公告)号: | CN105074586A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | S.迪尔;A.亨切尔;S.尤德卢夫特 | 申请(专利权)人: | 西门子公司 |
主分类号: | G05B13/02 | 分类号: | G05B13/02 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 周志明;宣力伟 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算机辅助 控制 调节 技术 系统 方法 | ||
技术领域
本发明涉及一种用于计算机辅助地控制和/或调节技术系统的方法以及一种相应的计算机程序产品。
背景技术
经常在计算机辅助的方法的基础上调节复杂的技术系统、比如燃气涡轮机或风力涡轮机,所述计算机辅助的方法在训练数据和相应的优化准则的基础上确定行动选择策略(英语:Policy)。该行动选择策略指明,在所述系统的相应的状态中应该在所述技术系统上实施何种行动。由此比如可以实现以较高的效率来运行所述技术系统。对于燃气涡轮机来说,此外必要时可以降低燃烧室动力或排放。对于风力涡轮机来说,比如也可以对吊舱关于风的定向进行优化。
为了确定相应的、用于技术系统的行动选择策略,通常使用麻烦的回归法、比如神经网络。但是,这些回归法具有以下缺点:它们产生复杂的行动选择策略,所述复杂的行动选择策略不再能够被人类专家所解释或理解。因此,缺乏可理解性的复杂的行动选择策略有时候不被使用在技术系统的运行中。从现有技术中已知一些方法,利用这些方法来产生具有更小的复杂性的行动选择策略,比如方法是:通过具有较小规模的状态来表示所述技术系统或者使用更加简单的回归法。但是,这些方案经常导致对于所述对技术系统的控制或调节来说非最优的行动选择策略。
发明内容
因此,本发明的任务是,提供一种用于计算机辅助地控制和/或调节技术系统的方法,所述方法使用具有较小的复杂性的、较好地适合于所述技术系统的行动选择策略。
该任务通过独立权利要求来解决。本发明的改进方案在从属权利要求中被阐明。
下面在步骤a)到c)的基础上对根据本发明的方法进行解释。这些步骤的名称仅仅用于更好参照其中所包含的特征,并且没有规定实施的顺序。特别地,特定的步骤也可以并行地实施或交织到彼此当中。
根据本发明的方法用于计算机辅助地控制和/或调节技术系统。按照步骤a),就多个时刻而言所述技术系统的动态行为分别以所述技术系统的状态和在所述技术系统上所执行的行动为特征,其中在相应的时刻的相应的行动引起所述技术系统在接下来的时刻的新的状态。术语“状态”或“行动”在此要广义地来理解。状态特别地可以包括具有一个或多个状态变量的状态矢量。在相应的(当前的)时刻的状态除了在当前时刻的状态矢量之外还可以可选地包括一个或多个在一个或多个先前的时刻的状态矢量,由此对在有限的时间水平范围内的状态的历史加以考虑。同样,行动可以是由多个行动变量构成的矢量。
在根据本发明的方法的步骤b)中提供和/或产生(多个)行动选择策略,其中相应的行动选择策略至少根据所述技术系统在相应的时刻的状态指定在相应的时刻有待在所述技术系统上执行的行动,并且其中为每个行动选择策略分配了一个复杂性尺度,所述复杂性尺度描述了相应的行动选择策略的复杂性,所述复杂性小于或者小于等于预先确定的复杂性阈值。所述复杂性尺度在此可以以不同的方式来定义,其中下面进一步给出了这样的复杂性尺度的实例。
在根据本发明的方法的步骤c)中,借助于对于评估尺度的计算从所提供的和/或所产生的行动选择策略中确定所提供的和/或所产生的行动选择策略的具有最高评估尺度的行动选择策略,其中所述评估尺度相应地描述了行动选择策略用于对所述技术系统进行调节和/或控制的适宜性。更高的评估尺度在此描述所述行动选择策略用于对技术系统进行调节和/或控制的更好的适宜性。在特定的实施方式中,可以并行地或彼此交织地实施所述步骤b)和c)。比如可以首先产生特定的行动选择策略,并且随后可以抛弃具有较差的评估尺度的行动选择策略的一部分。随后又产生新的行动选择策略,并且以相同的方式又抛弃相应的行动选择策略。特别地,在使用进一步在下面描述的基因编程或粒子群优化时所述步骤b)和c)交织在彼此当中。
按照本发明,相应的行动选择策略的、在步骤c)的范围内所计算的评估尺度可以取决于以下三个参量中的一个或多个参量:
-所述相应的行动选择策略与预先给定的最佳的行动选择策略之间的距离尺度,其中减小的距离尺度表示更高的评估尺度,并且其中所述预先给定的最佳的行动选择策略优选建立在神经网络(比如循环神经网络)的基础上;
-奖励尺度,在执行所述相应的行动选择策略时在对于所述技术系统的模拟中产生所述奖励尺度,其中更高的奖励尺度引起更高的评估尺度,并且其中所述模拟优选建立在神经网络(比如循环神经网络)的基础上;
-用于所述相应的行动选择策略的质量尺度,借助于行动选择策略-评估方法(英语:PolicyEvaluationMethod)来确定所述质量尺度,其中更高的质量尺度引起更高的评估尺度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子公司,未经西门子公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480018380.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:蝉蜕收集用简易工具
- 下一篇:一种大规模饲养小菜蛾成虫装置