[发明专利]确定执行设备的动作选择方针在审
| 申请号: | 201980040669.4 | 申请日: | 2019-05-15 |
| 公开(公告)号: | CN112292696A | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 李辉;胡开亮;宋乐 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06N5/00 | 分类号: | G06N5/00 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 确定 执行 设备 动作 选择 方针 | ||
1.一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:
在多次迭代中的每次迭代,以及对于当前迭代中所述执行设备在一种状态下的多个可能动作中的每个动作,其中,所述执行设备的所述状态是由所述执行设备采取的动作的历史导致的,
获得前一次迭代中所述执行设备在所述状态下的所述动作的遗憾值,其中,所述执行设备在所述状态下的所述动作的遗憾值表示所述执行设备在所述状态下采取所述动作的收益与所述执行设备在所述状态下的收益之差;以及
计算所述前一次迭代中所述执行设备在所述状态下的所述动作的参数化遗憾值,包括:
确定非负下限遗憾值和所述前一次迭代中所述执行设备在所述状态下的所述动作的遗憾值中的最大值,以及
通过将所述确定的最大值增加为它的β次方来计算参数化遗憾值,其中β是大于1的固定值;
根据所述前一次迭代中所述执行设备在所述状态下的所述多个可能动作的参数化遗憾值,确定所述前一次迭代中所述多个可能动作中的每个动作的对应归一化遗憾值;
根据所述归一化遗憾值,确定所述执行设备在所述状态下的所述动作的参数化动作选择方针;
根据所述执行设备在所述状态下的所述动作的参数化动作选择方针,确定所述执行设备在所述状态下的所述动作的动作选择方针,其中,所述动作选择方针指定了选择所述多个可能动作的所述状态的概率;以及
根据所述动作选择方针控制所述执行设备的操作。
2.根据前述任一权利要求所述的方法,其中,所述非负下限遗憾值小于10-1。
3.根据前述任一权利要求所述的方法,其中,β小于2。
4.根据前述任一权利要求所述的方法,还包括基于所述当前迭代中所述执行设备在所述状态下的所述动作的动作选择方针,确定是否满足收敛条件。
5.根据权利要求1至4中任一项所述的方法,其中,所述前一次迭代中所述执行设备在所述状态下的所述动作的遗憾值是基于前一次迭代中所述执行设备在所述状态下的所述动作的第一反事实值CFV和所述前一次迭代中所述执行设备在所述状态下的第二CFV之差计算出的迭代累计遗憾,其中,所述第一CFV和所述第二CFV是通过基于所述前一次迭代中所述执行设备在所述状态下的所述动作的动作选择方针递归地遍历表示所述环境的博弈树计算出的。
6.根据权利要求1至4中任一项所述的方法,其中,所述前一次迭代中所述执行设备在所述状态下的所述动作的遗憾值是基于在所述前一次迭代之前的一次迭代后所述执行设备在所述状态下的所述动作的遗憾值计算出的累计遗憾,以及基于所述前一次迭代中所述执行设备在所述状态下的所述动作的第一反事实值CFV与所述前一次迭代中所述执行设备在所述状态下的第二CFV之差计算出的迭代累计遗憾,其中,第一CFV和第二CFV是通过基于所述前一次迭代中所述执行设备在所述状态下的所述动作的动作选择方针,递归地遍历表示所述环境的博弈树计算出的。
7.根据权利要求1至4中任一项所述的方法,其中,所述当前迭代中所述执行设备在所述状态下的所述动作的动作选择方针是从第一次迭代到所述当前迭代的平均动作选择方针,其中,所述当前迭代中所述执行设备在所述状态下的所述动作的平均动作选择方针是基于经所述当前迭代中所述执行设备的所述状态的对应到达概率加权的、所述执行设备在所述状态下的所述动作的参数化动作选择方针确定的。
8.根据权利要求1至4中任一项所述的方法,其中,所述当前迭代中所述执行设备在所述状态下的所述动作的动作选择方针是所述当前迭代中所述执行设备在所述状态下的所述动作的迭代动作选择方针,其中,所述当前迭代中所述执行设备在所述状态下的所述动作的迭代动作选择方针是基于所述当前迭代中所述执行设备在所述状态下的所述动作的参数化动作选择方针与所述前一次迭代中所述执行设备在所述状态下的所述动作的迭代动作选择方针的加权和确定的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980040669.4/1.html,转载请声明来源钻瓜专利网。





