[发明专利]一种模型训练方法、装置、系统及可读存储介质在审

申请号：	202211273736.7	申请日：	2022-10-18
公开（公告）号：	CN115545660A	公开（公告）日：	2022-12-30
发明（设计）人：	张凯	申请（专利权）人：	太保科技有限公司
主分类号：	G06Q10/10	分类号：	G06Q10/10;G06Q50/04;G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	曹伟
地址：	200010 上海市黄浦区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型训练方法装置系统可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种模型训练生成方法，其特征在于，所述方法包括：

判断强化学习模型是否收敛；

若所述强化学习模型不收敛，则随机选择一个软件环境并生成一个随机数；

若所述强化学习模型收敛，则结束训练；

判断所述随机数是否大于预设阈值；

若否，则随机选取一条训练数据，所述训练数据来自于所述软件环境；对所述训练数据进行离线强化学习；

若是，则对所述软件环境进行在线强化学习；

完成强化学习后，再次执行所述随机选择一个软件环境并生成一个随机数的操作。

2.根据权利要求1所述的方法，其特征在于，所述判断强化学习模型是否收敛，包括：

基于DQN、DDQN结合模仿学习的算法，检查强化学习模型是否收敛。

3.根据权利要求1所述的方法，其特征在于，所述训练数据的生成方法，包括：

判断RPA流程中是否存在未记录的错误与相应的容错流程；

若存在未记录的错误与相应的容错流程，则模拟产生第一错误；

判断所述RPA流程是否可以完成容错处理流程；

若是，则记录所述容错处理流程；

若否，则进行人工干预；基于所述人工干预的流程，记录所述容错处理流程；

记录所述容错处理流程后，重新判断所述RPA流程中是否存在未记录的错误与相应的容错流程；

若存在未记录的错误与相应的容错流程，则模拟产生第二错误；

若不存在未记录的错误与相应的容错流程，则记录正常处理流程；

基于所述正常处理流程，产生训练数据。

4.根据权利要求3所述的方法，其特征在于，所述容错处理流程，包括：容错处理过程中的每一步操作、所述操作的对应环境以及所述操作前后的环境状态。

5.一种模型训练生成装置，其特征在于，所述装置包括：第一判断模块、选择生成模块、第二判断模块、选取模块、离线强化学习模块、在线强化学习模块；

所述第一判断模块，用于判断强化学习模型是否收敛；若所述强化学习模型收敛，则结束训练；

所述选择生成模块，用于若所述强化学习模型不收敛，则随机选择一个软件环境并生成一个随机数；

所述第二判断模块，用于判断所述随机数是否大于预设阈值；

所述选取模块，用于若随机数不大于预设阈值范围，则随机选取一条训练数据，所述训练数据来自于所述软件环境；

所述离线强化学习模块，用于对所述训练数据进行离线强化学习；

所述在线强化学习模块，用于若随机数大于预设阈值范围，对所述软件环境进行在线强化学习；

所述选择生成模块，还用于完成强化学习后，再次执行所述随机选择一个软件环境并生成一个随机数的操作。

6.根据权利要求5所述的装置，其特征在于，所述第一判断模块，具体用于：

基于DQN、DDQN结合模仿学习的算法，检查强化学习模型是否收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太保科技有限公司，未经太保科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211273736.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载