[发明专利]优势估计方法、装置、电子设备和存储介质有效
| 申请号: | 202110540754.6 | 申请日: | 2021-05-18 |
| 公开(公告)号: | CN113240118B | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 李小双;王晓;黄梓铭;王飞跃 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06N5/00 | 分类号: | G06N5/00;G06N3/0464;G06N3/0442;G06N3/084 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张雅娜 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 优势 估计 方法 装置 电子设备 存储 介质 | ||
1.一种优势估计方法,其特征在于,包括:
在电网紧急调控场景下,获取当前环境状态;所述当前环境状态是指当前决策场景的环境状态;
所述环境状态包括环境图像的RGB通道矩阵、不同特征变量取值构成的向量或者张量;假设t时刻第i条母线及其对应低压侧的电压为vti,以及母线上的负荷为则电网当前时刻的状态表示为通过将过去N个时间步内的状态堆叠起来,用于描述所述电网在t时刻的动态运行状态,构成所述环境状态st=[Ot-N+1,Ot-N+2,...,Ot];
将所述当前环境状态输入至优势估计模型中,得到所述优势估计模型基于所述当前环境状态进行优势估计得到的优势向量,并将所述优势向量中的最大值对应的动作确定为优势动作;
其中,所述优势估计模型是基于示教数据集,以及行为克隆模型训练得到的;
所述示教数据集包括样本环境状态及其对应的样本动作,所述行为克隆模型是基于所述示教数据集训练得到的;
所述优势估计模型的损失函数包括有监督损失、单步时间差分损失和多步时间差分损失;
所述有监督损失的公式如下:
其中,adva为Dueling DDQN中advantage网络输出的优势估计向量经过归一化后的向量,其定义为adva=softmax(A(s,a)),A(s,a)为优势估计向量,demo代表示教数据,πbc(s)代表行为克隆网络策略在状态s下的动作,aE为示教数据中的样本动作;
其中,所述有监督损失是基于所述优势估计模型输出的优势估计向量与对应的专家动作或样本动作之间的差异确定的;其中,所述专家动作是所述行为克隆网络根据样本环境状态确定得到的,所述样本动作是从所述示教数据集中获取的;
所述优势估计模型是基于如下步骤训练的:
基于所述示教数据集,训练得到行为克隆网络;
基于所述示教数据集,预训练优势估计模型;
基于所述示教数据集,以及所述行为克隆网络基于样本环境状态确定得到的专家动作,训练所述优势估计模型,同时动态更新所述示教数据集并微调所述行为克隆网络;
所述基于所述示教数据集,训练得到行为克隆网络,具体包括:
确定多个不同网络结构和网络参数的候选克隆网络;
基于所述示教数据集,以样本环境状态为输入,样本动作为标签,根据反向传播和梯度下降算法,训练各个候选克隆网络;
将各个候选克隆网络分别与真实环境交互,计算各个候选克隆网络对应每回合的回合奖励总分;
选取回合奖励总分最高的候选克隆网络,作为训练好的行为克隆网络。
2.根据权利要求1所述的优势估计方法,其特征在于,所述动态更新所述示教数据集,具体包括:
基于所述优势估计模型与真实应用环境进行交互,基于真实应用环境的反馈信息,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中。
3.根据权利要求2所述的优势估计方法,其特征在于,所述基于真实应用环境的反馈信息,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中,具体包括:
当前回合结束后,计算当前回合的奖励值;
若所述当前回合的奖励值高于预设奖励,则基于真实应用环境在当前回合的反馈信息以及所述优势估计模型在当前回合输入的状态信息和输出的优势动作,确定新的示教数据,并将所述新的示教数据更新到所述示教数据集中。
4.根据权利要求1所述的优势估计方法,其特征在于,所述微调所述行为克隆网络,具体包括:
每更新预设数量次所述示教数据集,则基于更新后的示教数据集,对所述行为克隆网络进行微调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540754.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种泌尿科用膀胱镜导管及其使用方法
- 下一篇:一种银行流水智能处理系统





