[发明专利]数据处理方法、装置、电子设备和存储介质在审
| 申请号: | 202111389006.9 | 申请日: | 2021-11-22 |
| 公开(公告)号: | CN114239687A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 李旭;黄泰然;孙明明;李平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V10/74;G06V10/80;G06V10/82 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开提出一种数据处理方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。方案为:获取目标对象所处环境的状态数据,将状态数据输入强化模型的策略网络,从动作集合中采样得到状态数据对应的多个动作,将多个动作和状态数据输入强化模型的引导网络,输出各动作与状态数据之间的目标匹配度,根据各动作的目标匹配度,从采样得到的多个动作中确定目标对象的目标动作。通过从策略网络输出的动作集合中采样多个动作,提高了后续处理的效率,而将状态数据和多个动作组合起来输入引导网络,计算各个动作对应的目标匹配度,该目标匹配度指示了各个动作和状态数据之间更强的关联性,从而提高了目标动作确定的准确性。
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习技术领域,具体涉及数据处理方法、装置、电子设备和存储介质。
背景技术
近些年来,强化学习已经被应用于诸多领域,比如游戏、机器人、推荐系统等。但是,训练一个强化学习模型是耗时的,这是因为在训练的过程中强化学习模型需要和环境进行大量的交互,以确定匹配的动作,而这些代价是高昂的。同时,简单的探索策略使得模型的学习速度变慢甚至会导致模型做出对环境具有危害性的动作。因此,如何提高动作确定的准确性,是亟待解决的技术问题。
发明内容
本公开提供了一种数据处理方法、装置、电子设备和存储介质。
根据本公开的一方面,提供了一种数据处理方法,包括:
获取目标对象所处环境的状态数据;
将所述状态数据输入强化模型的策略网络,以从动作集合中采样得到所述状态数据对应的多个动作;
将所述多个动作和所述状态数据,输入所述强化模型的引导网络,以输出各所述动作与所述状态数据之间的目标匹配度;
根据所述各动作与所述状态数据之间的目标匹配度,从所述采样得到的多个动作中确定所述目标对象的目标动作。
根据本公开的另一方面,提供了一种数据处理装置,包括:
获取模块,用于获取目标对象所处环境的状态数据;
第一确定模块,用于将所述状态数据输入强化模型的策略网络,以从动作集合中采样得到所述状态数据对应的多个动作;
第二确定模块,用于将所述多个动作和所述状态数据,输入所述强化模型的引导网络,以输出各所述动作与所述状态数据之间的目标匹配度;
第三确定模块,用于根据所述各动作与所述状态数据之间的目标匹配度,从所述采样得到的多个动作中确定所述目标对象的目标动作。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述一方面所述方法的步骤。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述一方面所述方法的步骤。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实现前述一方面所述方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例所提供的一种数据处理方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111389006.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种综合管廊预制件
- 下一篇:一种含有能够随风压自动调节开合状态的舱体的钻杆





