[发明专利]一种强化学习感知的冰壶模拟图像转换真实图像的方法在审
申请号: | 202210229371.1 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114707402A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 李宗民;孙文洁;肖倩;孙浩淼;李亚传;王向东 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;G06T3/00;G06V40/20;G06V10/44;G06V10/82;G06F111/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 感知 模拟 图像 转换 真实 方法 | ||
1.强化学习感知的冰壶模拟图像转换真实图像方法,所述方法包括:
步骤1),收集模拟器中冰壶比赛图像与真实冰壶比赛图像,分别构成两个训练集;
步骤2),将两个训练集送入基于CycleGAN网络的图像风格转化模块,实现模拟图像到真实图像转化的基本流程;
步骤3),初始化两个Q网络:Qsim与Qreal。通过原始模拟图像和模拟动作训练Qsim网络,通过生成真实图像和模拟动作训练Qreal网络,通过TD loss更新Q网络参数;
步骤4),使用强化学习场景一致性约束CycleGAN模型,要求描述相同场景的图像对应相同的Q值;
步骤5),训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像,将真实图像作为冰壶策略训练的输入取代原有的模拟图像。
2.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤1)两组数据不需要配对。
3.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤2)CycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器),增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。
4.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤3)对原始Q-learning方法进行改进,使其适用于连续动作空间。
5.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤4)CycleGAN网络、Qsim和Qreal网络在实际训练过程中采取联合训练方式。
6.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛,但在训练完成后冻结Q网络重新使用CycleGAN网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210229371.1/1.html,转载请声明来源钻瓜专利网。