[发明专利]一种基于鲁棒模仿学习的模拟器建模方法有效
申请号: | 202110654854.1 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113239634B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 杨正宇;张伟楠;丁宁;俞勇 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模仿 学习 模拟器 建模 方法 | ||
本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。
技术领域
本发明涉及强化学习领域,尤其涉及一种基于鲁棒模仿学习的模拟器建模方法。
背景技术
模拟器建模是强化学习中的一个重要方向,其指的是对环境的动态转移进行建模。目前而言,模拟器建模的方法主要可以分为基于规则的方法和基于学习的方法。针对于复杂的真实场景,基于规则的方法难以正确并且全面地提取出该环境的所有规则,故而使得这些方法在很多场景下会得到糟糕的结果。随着可用数据的增多,近些年来在模拟器建模场景中,基于学习的方法得到了更多的关注。然而目前所有基于学习的方法都没考虑学习到的模拟器的鲁棒性,故而其学得的模拟器可能会在很多情形下给出极不准确的仿真结果。
近期来,专家和学者主要聚焦于如何利用机器学习的方法来建模模拟器,具体的,目前主要利用模仿学习的方式来对模拟器进行建模。Guanjie Zheng等在InternationalConference on Data Engineering(数据工程国际会议)会议(2020年36届)上发表了“Learning to simulate vehicle trajectories from demonstrations”(《通过演示学习模拟车辆的轨迹》),该文章提出利用生成对抗模拟学习来从已经收集到的车辆行驶数据中学习车辆的行为,即学习一个模拟器去模拟真实车辆的行为。
Jingcheng Shi等在AAAI Conference on Artificial Intelligence(美国人工智能协会人工智能会议)会议(2019年33届)上发表了“Virtual-Taobao:VirtualizingReal-World Online Retail Environment for Reinforcement Learning”(《虚拟淘宝:虚拟现实世界的在线零售环境以进行强化学习》)。该方法将用户和平台的交互建模为一个多智能体系统,并利用多智能体版本的生成对抗模拟学习同时学习用户和平台的行为。考虑到已收集的数据未必包含了全部信息,Wenjie Shang等在ACM Knowledge Discovery andData Mining(计算机协会知识发现与数据挖掘)会议(2019年25届)上发表了“EnvironmentReconstruction with Hidden Confounders for Reinforcement Learning basedRecommendation”(《基于强化学习的推荐下的含有隐藏混杂因素的环境重建》),该方法仍旧将用户和平台的交互建模为一个多智能体系统,同时考虑到数据中未包含的一些隐藏信息,又在多智能体系统中引入了一个新的角色以建模这些隐藏信息,进而同时学习这三者的行为。
对国内外相关研究可得出以下结论:目前在模拟器建模的领域中,所有基于学习的方法都未将学得的模拟器的鲁棒性考虑在内。然而一个好的模拟器,其应该是能够为不同的策略提供稳定的仿真,即使在各种边缘案例中也能提供不错的仿真效果。
因此,本领域的技术人员致力于开发一种基于鲁棒模仿学习的模拟器建模方法,以实现稳定的仿真。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110654854.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:室内管路异常探测系统及方法
- 下一篇:适用于套袋机的封口装置