[发明专利]一种模型训练方法及装置在审
申请号: | 202310426725.6 | 申请日: | 2023-04-12 |
公开(公告)号: | CN116467600A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 王芳;暴宇健 | 申请(专利权)人: | 深圳须弥云图空间科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06F18/213;G06N3/092 |
代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 杨波 |
地址: | 518054 广东省深圳市南山区粤海街道海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
本公开涉及人工智能技术领域,提供一种模型训练方法、装置、计算机设备及计算机可读存储介质。该方法通过基于对比学习的强化学习方式对决策模型进行训练,让决策模型能够从泛化模型所得到的已有的经验中提取知识,并使得决策模型的训练过程更加鲁棒,能减少决策模型对训练样本集的过度拟合。由于增强样本图片为根据原始样本图片所确定的,故可实现在原始样本图片的基础上,新增得到增强样本图片,并利用基于对比学习的强化学习算法使得决策模型进行原始样本图片及增强样本图片的对比学习,从而可使决策模型可以更好地适应变化后的图片的预测效果。且可通过基于对比学习的强化学习方式对决策模型进行训练,提升决策模型的预测结果的准确性和精度。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种模型训练方法及装置。
背景技术
近年来,强化学习的应用场景逐渐增多,主要的应用场景如下:1.机器人控制:强化学习可以用于控制机器人,以实现机器人自主学习和行动;2.自动驾驶:强化学习可以用于自动驾驶,使车辆能够在复杂的环境中安全驾驶;3.游戏:强化学习可以用于游戏,让游戏角色能够从自身的行为中学习,从而更好地控制游戏。4.无人机:强化学习可以用于控制无人机,让无人机能够自主学习和行动,以实现更好的空中控制。5.金融:强化学习可以用于金融交易系统,以提高金融交易系统的准确性和效率。
神经网络的强化学习场景中常用的是深度强化学习,深度强化学习是一种使用深度神经网络的强化学习方法,对复杂问题的解决较为友好,比如运行游戏,控制机器人,控制自动驾驶等。深度强化学习主要通过不断的学习和实践,通过模拟环境中的行为,来最大化未来的奖励。深度强化学习使用深度神经网络来实现,深度强化学习可以处理高维度和非线性的环境,并能够更好地学习和表现。但是,目前的强化学习方法也面临模型精度难以保证的技术困难。由于目前基于神经网络模型的强化学习方法往往需要建立精确的环境模型,且模型的准确性会随着环境的变化而变化,使得基于现有的强化学习方法训练得到的模型的预测准确性较差。另外,目前的强化学习算法存在一定的问题,包括强化学习训练过程中模型的收敛速度慢,在高维度状态空间的环境收敛效果更差,且存在模型过拟合的问题,这样,导致模型泛化能力差,且进一步导致在模型使用时,模型的预测精度较差。因此,亟需一种新的针对神经网络的强化学习训练方法。
发明内容
有鉴于此,本公开实施例提供了一种模型训练方法、装置、计算机设备及计算机可读存储介质,以解决现有技术中基于现有的强化学习方法训练得到的模型的预测准确性较差的问题。
本公开实施例的第一方面,提供了一种模型训练方法,所述方法包括:
获取原始训练样本集和增强训练样本集;其中,所述原始训练样本集包括原始样本图片和所述原始样本图片对应的参考标签,所述增强训练样本集包括增强样本图片;所述增强样本图片为根据所述原始样本图片所确定的;
利用所述原始训练样本集对决策模型进行强化学习训练,得到训练后的决策模型;
将所述原始训练样本集中的原始样本图片输入所述训练后的决策模型,得到所述原始样本图片对应的第一特征向量;
将所述原始训练样本集中的原始样本图片和所述增强训练样本集中的增强样本图片分别输入泛化模型,得到所述原始样本图片对应的第二特征向量和所述增强样本图片对应的第三特征向量;
利用所述第一特征向量、所述第二特征向量和所述第三特征向量,对所述训练后的决策模型的模型参数进行调整,得到目标决策模型。
本公开实施例的第二方面,提供了一种模型训练装置,所述装置包括:
集合获取单元,用于获取原始训练样本集和增强训练样本集;其中,所述原始训练样本集包括原始样本图片和所述原始样本图片对应的参考标签,所述增强训练样本集包括增强样本图片;所述增强样本图片为根据所述原始样本图片所确定的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳须弥云图空间科技有限公司,未经深圳须弥云图空间科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310426725.6/2.html,转载请声明来源钻瓜专利网。