[发明专利]策略模型优化方法、装置及存储介质在审
申请号: | 202211155956.X | 申请日: | 2022-09-22 |
公开(公告)号: | CN115577795A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 谈广云;史新新;魏培培;易平;肖平;周游;刘培锴;陈斐 | 申请(专利权)人: | 杭州浮云网络科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 何晓春 |
地址: | 310006 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略 模型 优化 方法 装置 存储 介质 | ||
本申请涉及一种策略模型优化方法、装置及存储介质,该方法包括:基于初始策略模型和各事件的初始状态生成对应的博弈树,所述博弈树的节点基于所述初始策略模型所确定;基于各博弈树所包含的节点的重要度信息,确定各事件所对应的最优路径;基于所述各事件所对应的最优路径,生成样本集;基于所述样本集对所述初始策略模型进行优化,得到优化策略模型,该优化策略模型相对于初始策略模型扩展了样本集的范围,通过重要度信息的筛选获取更优决策水平的样本集,从而提高了优化策略模型的决策水平,解决了基于人类博弈数据生成的样本数据集质量较低影响策略模型决策水平的问题。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种策略模型优化方法、装置及存储介质。
背景技术
非完全信息博弈是人工智能研究中一个长期存在的挑战,通过使用监督学习的方法模拟人类在相同条件下的决策,智能系统可以达到相当于人类决策的高级水平。但是,基于人类博弈数据训练获取的博弈策略模型,通常将人类博弈数据中针对某一事件状态出现概率最高或博弈效果最好的应对方式作为样本对策略模型进行训练,训练获得的策略模型的决策水平受限于训练数据的数量和质量,一方面仅通过有限的训练数据和测试无法遍历可能出现的众多博弈状态,另一方面由于人类决策样本包含的应对方式可能并不是最优应对方式,使得样本数据集的质量影响了监督学习生成的策略模型的性能,导致模型的决策水平较低。
针对相关技术中存在的基于人类博弈数据生成的样本数据集质量较低影响策略模型决策水平的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种策略模型优化方法、装置及存储介质,以解决相关技术中存在的基于人类博弈数据生成的样本数据集质量较低影响策略模型决策水平的问题。
第一个方面,在本实施例中提供了一种策略模型优化方法,所述方法包括:
基于初始策略模型和各事件的初始状态生成对应的博弈树,所述博弈树的节点基于所述初始策略模型所确定;
基于各博弈树所包含的节点的重要度信息,确定各事件所对应的最优路径;
基于所述各事件所对应的最优路径,生成样本集;
基于所述样本集对所述初始策略模型进行优化,得到优化策略模型。
在其中的一些实施例中,所述基于初始策略模型和各事件的初始状态生成对应的博弈树包括:
以所述初始状态为根节点,基于所述初始策略模型生成与所述根节点对应的至少两个子节点;
基于所述至少两个子节点和所述根节点的重要度信息,确定目标子节点;
以所述目标子节点为父节点,重复生成子节点并确定目标子节点的过程,直至获取所述博弈结果;
基于所述目标子节点与所述根节点的连线获取对应的博弈路径;
基于所述博弈结果更新所述博弈路径上所有节点的重要度信息;
基于更新后的所述重要度信息迭代扩展所述博弈树,直至达到预先设置的迭代次数。
在其中的一些实施例中,在所述重要度信息包括所述节点的访问次数、总评估值、先验概率的情况下,所述基于所述至少两个子节点和所述根节点的重要度信息,确定目标子节点包括:
其中,A为所述目标子节点,a为子节点,V(a)为所述子节点的总评估值,N(a)为所述子节点的访问次数,P(a)为所述子节点的先验概率,N(s)为所述子节点的父节点的访问次数,Cpuct为预设常数。
在其中的一些实施例中,所述基于所述博弈结果更新所述博弈路径上所有节点的重要度信息包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州浮云网络科技有限公司,未经杭州浮云网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211155956.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种心室辅助泵自动化检测系统及检测方法
- 下一篇:铝塑膜顶侧封成型装置