[发明专利]资源编排方法及智能体有效
申请号: | 202110520783.6 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113254200B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 刘晶;徐雷;毋涛 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;冯建基 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源 编排 方法 智能 | ||
本发明公开一种资源编排方法及智能体,涉及计算机技术领域。具体方案包括:获取全局奖励信息和局部环境状态信息,其中,全局奖励信息是基于预设的全局环境获得的信息,全局环境对应一个或多个智能体,局部环境状态信息是根据当前智能体对应的局部环境获取的信息;根据全局奖励信息和局部环境状态信息,更新编排策略;在接收到第一资源编排请求的情况下,基于第一资源编排请求、局部环境状态信息和更新的编排策略编排局部环境中的资源。基于全局奖励信息和局部环境状态信息更新编排策略,不仅可以降低智能体之间编排策略的相关性,还可以依据环境变化及时更新编排策略,从而获得更加合理准确的编排策略,提升了资源的利用率。
技术领域
本发明涉及计算机技术领域,具体涉及一种资源编排方法及智能体。
背景技术
智能体是人工智能领域中的重要概念之一,它是指驻留在某一环境下,能持续自主地发挥作用,具备驻留性、反应性、社会性、主动性等特征的计算实体。在实际应用中,可以为智能体预设策略,智能体基于预设策略执行相应动作。但是,通常情况下,预设策略为相对固定的策略,且多个智能体基于相同的环境和相同的奖励更新策略时存在相关性,从而导致智能体无法依据环境变化合理准确地更新策略。
发明内容
为此,本发明提供一种资源编排方法及智能体,以解决智能体无法依据环境变化合理准确地更新策略的问题。
为了实现上述目的,本发明第一方面提供一种资源编排方法,该资源编排方法包括:
获取全局奖励信息和局部环境状态信息,其中,所述全局奖励信息是基于预设的全局环境获得的信息,所述全局环境对应一个或多个智能体,所述局部环境状态信息是根据当前智能体对应的局部环境获取的信息;
根据所述全局奖励信息和所述局部环境状态信息,更新编排策略;
在接收到第一资源编排请求的情况下,基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源。
进一步地,所述获取全局奖励信息和局部环境状态信息之前,还包括:
接收用户终端发送的第二资源编排请求;
根据所述第二资源编排请求、所述第二资源编排请求对应的历史局部环境状态信息和所述第二资源编排请求对应的历史编排策略,编排所述第二资源编排请求对应的历史局部环境中的资源。
进一步地,所述获取全局奖励信息和局部环境状态信息,包括:
根据编排之后的所述第二资源编排请求对应的历史局部环境中的资源,获取所述全局奖励信息和所述局部环境状态信息。
进一步地,所述第一资源编排请求和所述第二资源编排请求包括资源编排类型和资源需求量。
进一步地,所述全局奖励信息是对所述全局环境中所有智能体的所述第二资源编排请求对应的历史局部环境状态信息和所述局部环境状态信息进行批处理,获得所述全局环境的资源均衡率与请求接受率,并根据预设的奖励机制、所述资源均衡率和所述请求接受率生成的信息。
进一步地,所述编排策略包括动作策略;
所述根据所述全局奖励信息和所述局部环境状态信息,更新编排策略,包括:
将所述全局奖励信息和所述局部环境状态信息输入预设的动作策略预测模型,以供所述动作策略预测模型执行动作策略预测操作,并输出更新的动作策略。
进一步地,所述动作策略包括路径部署子策略和路由子策略中的一个或多个。
进一步地,所述在接收到第一资源编排请求的情况下,基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110520783.6/2.html,转载请声明来源钻瓜专利网。