[发明专利]确定执行设备的动作选择方针有效
| 申请号: | 201980039221.0 | 申请日: | 2019-05-15 |
| 公开(公告)号: | CN112470123B | 公开(公告)日: | 2023-09-05 |
| 发明(设计)人: | 李辉;宋乐 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F9/455 | 分类号: | G06F9/455 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 确定 执行 设备 动作 选择 方针 | ||
本文公开了用于为执行设备生成动作选择方针(ASP)的方法、系统和装置。一种方法包括:获得当前迭代中的ASP;获得当前状态下每个动作的相应的第一奖励;基于各个动作的相应的第一奖励和ASP来计算当前状态的第一奖励;基于动作的相应的第一奖励与当前状态的第一奖励之间的差来计算每个动作的相应遗憾值;基于当前迭代中每个动作的相应遗憾值来计算增量ASP;基于增量ASP来计算当前状态的第二奖励;基于当前状态的第二奖励确定下一次迭代中的ASP;以及根据ASP来控制执行设备的各个动作。
技术领域
本文涉及确定执行设备的动作选择方针,以在包括执行设备以及一个或多个其他设备的环境中完成任务。
背景技术
两个或更多个参与方之间的策略交互可以通过涉及两个或更多个参与方(也称为玩家)的博弈来建模。在涉及两个或更多个玩家的不完美信息博弈(imperfectinformation games,IIG)中,玩家在做出决定之前只能部分地了解其对手。这类似于现实场景,例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系、欺诈方和反欺诈方之间的博弈关系。
求解IIG的方法具有很大的经济和社会效益。由于信息隐藏,因此玩家必须在对其对手信息不确定的情况下下进行推理,并且玩家还需要采取行动以利用其对手对其自己的信息的不确定的优势。
发明内容
本文描述了用于确定执行设备的动作选择方针的技术,以在包括执行设备以及一个或多个其他设备的环境中完成任务,例如,在执行设备与一个或多个其他设备之间进行策略交互。例如,执行设备可以执行一种计算机实现的用于寻求执行设备与一个或多个其他设备之间的博弈的纳什均衡(Nash equilibrium)的方法。在一些实施例中,这些技术可以包括执行用于求解不完美信息博弈(IIG)的虚拟反事实遗憾最小化(CFR)算法,其可以节省存储空间,降低计算复杂性和方差,同时提高CFR算法的收敛速度。
本文还描述了耦接到一个或多个处理器并且其上存储有指令的一个或多个非暂态计算机可读存储介质,当所述指令由所述一个或多个处理器执行时,所述指令将促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
本文还描述了用于实现本文所述的方法的系统。该系统包括一个或多个处理器以及耦接到所述一个或多个处理器并且其上存储有指令的计算机可读存储介质,当所述指令由所述一个或多个处理器执行时,所述指令将促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
根据本文所述的方法、系统和计算机介质可以包括本文描述的各个方面和特征的任何组合。也就是说,根据本文所述的方法不限于本文具体描述的各个方面和特征的组合,而是还包括所描述的各个方面和特征的任何组合。
在附图和以下描述中阐述了本公开的一个或多个实施例的细节。根据说明书和附图以及权利要求,本文的其他特征和优点将显现。
附图说明
图1是示出根据本文的实施例的单牌扑克(one-card poker)中的部分博弈树的示例的图示。
图2A是示出原始CFR和流式CFR的工作流的示例的图示,图2B示出根据本文的实施例的流式CFR的工作流的示例。
图3是根据本文的实施例的流式CFR算法的示例的伪代码。
图4是根据本文的实施例的用于执行流式CFR以确定软件应用的动作选择方针的处理的示例的流程图。
图5是示出根据本文的实施例的在部分博弈树上应用原始CFR算法和虚拟CFR算法的示例的图示。
图6是根据本文的实施例的执行虚拟CFR以在两个或更多个参与方之间的策略交互中进行策略搜索的处理的示例的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980039221.0/2.html,转载请声明来源钻瓜专利网。





