[发明专利]优势估计方法、装置、电子设备和存储介质有效

专利信息
申请号: 202110540754.6 申请日: 2021-05-18
公开(公告)号: CN113240118B 公开(公告)日: 2023-05-09
发明(设计)人: 李小双;王晓;黄梓铭;王飞跃 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06N5/00 分类号: G06N5/00;G06N3/0464;G06N3/0442;G06N3/084
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 张雅娜
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 优势 估计 方法 装置 电子设备 存储 介质
【权利要求书】:

1.一种优势估计方法,其特征在于,包括:

在电网紧急调控场景下,获取当前环境状态;所述当前环境状态是指当前决策场景的环境状态;

所述环境状态包括环境图像的RGB通道矩阵、不同特征变量取值构成的向量或者张量;假设t时刻第i条母线及其对应低压侧的电压为vti,以及母线上的负荷为则电网当前时刻的状态表示为通过将过去N个时间步内的状态堆叠起来,用于描述所述电网在t时刻的动态运行状态,构成所述环境状态st=[Ot-N+1,Ot-N+2,...,Ot];

将所述当前环境状态输入至优势估计模型中,得到所述优势估计模型基于所述当前环境状态进行优势估计得到的优势向量,并将所述优势向量中的最大值对应的动作确定为优势动作;

其中,所述优势估计模型是基于示教数据集,以及行为克隆模型训练得到的;

所述示教数据集包括样本环境状态及其对应的样本动作,所述行为克隆模型是基于所述示教数据集训练得到的;

所述优势估计模型的损失函数包括有监督损失、单步时间差分损失和多步时间差分损失;

所述有监督损失的公式如下:

其中,adva为Dueling DDQN中advantage网络输出的优势估计向量经过归一化后的向量,其定义为adva=softmax(A(s,a)),A(s,a)为优势估计向量,demo代表示教数据,πbc(s)代表行为克隆网络策略在状态s下的动作,aE为示教数据中的样本动作;

其中,所述有监督损失是基于所述优势估计模型输出的优势估计向量与对应的专家动作或样本动作之间的差异确定的;其中,所述专家动作是所述行为克隆网络根据样本环境状态确定得到的,所述样本动作是从所述示教数据集中获取的;

所述优势估计模型是基于如下步骤训练的:

基于所述示教数据集,训练得到行为克隆网络;

基于所述示教数据集,预训练优势估计模型;

基于所述示教数据集,以及所述行为克隆网络基于样本环境状态确定得到的专家动作,训练所述优势估计模型,同时动态更新所述示教数据集并微调所述行为克隆网络;

所述基于所述示教数据集,训练得到行为克隆网络,具体包括:

确定多个不同网络结构和网络参数的候选克隆网络;

基于所述示教数据集,以样本环境状态为输入,样本动作为标签,根据反向传播和梯度下降算法,训练各个候选克隆网络;

将各个候选克隆网络分别与真实环境交互,计算各个候选克隆网络对应每回合的回合奖励总分;

选取回合奖励总分最高的候选克隆网络,作为训练好的行为克隆网络。

2.根据权利要求1所述的优势估计方法,其特征在于,所述动态更新所述示教数据集,具体包括:

基于所述优势估计模型与真实应用环境进行交互,基于真实应用环境的反馈信息,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中。

3.根据权利要求2所述的优势估计方法,其特征在于,所述基于真实应用环境的反馈信息,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中,具体包括:

当前回合结束后,计算当前回合的奖励值;

若所述当前回合的奖励值高于预设奖励,则基于真实应用环境在当前回合的反馈信息以及所述优势估计模型在当前回合输入的状态信息和输出的优势动作,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中。

4.根据权利要求1所述的优势估计方法,其特征在于,所述微调所述行为克隆网络,具体包括:

每更新预设数量次所述示教数据集,则基于更新后的示教数据集,对所述行为克隆网络进行微调。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110540754.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top