[发明专利]交互任务的控制方法、装置、电子设备及存储介质有效
申请号: | 202010225186.6 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111443806B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 李晓倩;邱福浩;韩国安;付强;王亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06N20/00 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交互 任务 控制 方法 装置 电子设备 存储 介质 | ||
本申请涉及人工智能技术领域,提供了一种交互任务的控制方法、装置、电子设备及存储介质,该方法包括:获取交互任务中的交互状态;将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;其中,所述机器学习模型由包括内部收益模型的机器训练网络训练而得,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;基于所述控制策略控制所述目标对象进行交互操作。本申请在机器学习模型的训练过程中采用内部收益模型计算表征模型训练收敛程度的内部收益值,可有效避免对模型训练过度,提高模型训练效率。
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种交互任务的控制方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(Machine Learning,ML)是人工智能技术中一门多领域交叉学科,其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
在机器学习中可采用强化学习的方法训练AI模型,使得AI模型模拟人类的操作方式与人类进行交互。在强化学习过程中,其涉及到一个探索与利用的均衡问题,探索可以帮助模型充分了解运行环境,利用可以帮助模型选择当前最优的策略执行;但是如果探索过多模型难以收敛,利用过多模型容易陷入最优解,导致模型能力较低。
现有技术中,解决平衡探索和利用的均衡问题时,一般采用探索策略中的贪心策略(ε-greedy策略),但是该策略虽然可以在前期使模型能探索到过多的状态,避免模型陷入局部最优解,但是后期过多的探索导致模型收敛速度较慢,且对所有非最优行为采用相同的概率去探索,没有采取针对性探索,导致模型浪费大量的时间在无意义的探索行为上,其探索效率低下,将导致模型能力较低,在执行任务时无法输出最优的策略。
发明内容
本申请提供了一种交互任务的控制方法、装置、电子设备及存储介质,可以解决上述至少一种技术问题。所述技术方案如下:
第一方面,提供了一种交互任务的控制方法,包括:获取交互任务中的交互状态;将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;其中,所述机器学习模型由包括内部收益模型的机器训练网络训练而得,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;基于所述控制策略控制所述目标对象进行交互操作。
结合第一方面,在第一方面的第一种实施方式中,所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型,其中,所述外部收益模型对用于训练的交互数据进行计算得到外部收益值,所述外部收益值为控制目标对象进行交互操作所得收益;所述机器学习模型的训练步骤包括:将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据;所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互;基于所述训练数据训练所述机器学习模型。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述基于所述训练数据训练所述机器学习模型,包括:将所述训练数据输入所述机器学习模型,获得更新后的机器学习模型;将所述更新后的机器学习模型反馈至所述自对弈模型,迭代所述训练数据,以迭代更新所述机器学习模型。
结合第一方面的第一种实施方式,在第一方面的第三种实施方式中,所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据,包括:将所述自对弈模型自对弈生成的交互数据进行特征抽取,获得目标状态特征;其中,所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征;将所述目标状态特征输入所述收益模型,获得训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010225186.6/2.html,转载请声明来源钻瓜专利网。