[发明专利]一种基于强化学习的间隔重复调度方法在审
申请号: | 202110586104.5 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113283172A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞勇;张伟楠;杨正宇 | 申请(专利权)人: | 上海伯禹信息科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06Q10/04;G06Q10/06;G06Q50/20;G06N3/04;G06N3/08;G06F119/12 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 间隔 重复 调度 方法 | ||
一种基于强化学习的间隔重复调度方法,其将间隔重复建模在连续时间序列上,并通过时间点过程来建模学生学习的时间行为,提高了该方法对于学生对学习内容的掌握情况的追踪的准确性,并利用强化学习算法来优化复习调度策略。本发明结合了Time‑LSTM(时间长短期记忆网络)以使调度方法更好得适应于连续时间序列,结合了基于模型的强化学习方法中的规划算法来提高算法的样本效率,可以采用任意现有的强化学习算法来对复习调度策略进行优化。
技术领域
本发明涉及机器学习领域中的强化学习以及教育领域中的间隔重复。
背景技术
间隔重复是机器教学中的一个重要场景,其指的是利用重复的、间隔性的学习,使得在有限时间内增强学生对于学习内容的掌握情况。间隔重复最重要的是适应性得为学生制定一个针对于学习内容的调度策略。目前而言,大部分经典的间隔重复方法都是启发式方法,缺少理论的保证并且在实际应用中也无法获得优良的表现。近来的一系列强化学习方法,有些做了一些不切实际的假设,有一些受困于稀疏奖励的问题,所以这些方法都难以实际落地。
(一)分析近期关于间隔重复的研究
近期来,专家和学者主要聚焦于如何利用强化学习方法来设计间隔重复中的调度策略。Reddy等在Conference on Neural Information Processing Systems(神经信息处理系统大会)研讨会(2017年31届)上发表的Accelerating Human Learning with DeepReinforcement Learning《利用深度强化学习加快人类学习》,该文章首次提出了利用深度强化学习来帮助设计间隔重复中的调度策略。其不足主要有两点,为了能够在每一次学生和调度策略交互的时候都能够获得奖励,它假设能够知道学生对于各个学习内容的真实掌握情况。其次,它将学生的学习行为建模在离散时间序列上,这与实际有较大出入。
Upadhyay等在Conference on Neural Information Processing Systems(神经信息处理系统大会)会议(2018年32届)上发表的Deep Reinforcement Learning ofMarked Temporal Point Processes,《带标签的时间点过程的深度强化学习》。该方法将学生的学习过程建模为一个带标签的时间点过程,学生每次学习的内容就是学生的每次学习时间所对应的标签。其不足主要有两点,首先它假设学生的学习时间是由调度策略决定的,这和真实情况有较大出入。其次,再利用强化学习算法优化时,每条序列只在最后时候能够获得一个非零的奖励,这极大限制了算法去探索到一个好的调度策略的能力。
对国内外相关研究可得出以下结论:目前在基于强化学习的间隔重复调度策略设计上,现有的成果的设计场景与真实的场景与较大出入。同时,还没有人去关注其中的样本效率问题,然而想要实际落地,样本效率是一个我们不得不考虑的问题。
因此,本领域的技术人员致力于开发一种适应于真实间隔重复场景,同时具有较高样本效率的间隔重复的调度策略设计方法。
发明内容
有鉴于现有技术的上述缺陷,本发明需要解决的两个问题是,尽可能使方法中的场景贴近于学生的真实学习场景,并尽可能提高强化学习方法在优化调度策略时的样本效率。
为实现上述目的,本发明提供了一种基于强化学习的间隔重复调度方法,通过时间点过程建模学生学习的时间行为,增加了学生学习的时间间隔的特征,增强了该方法追踪学生对于各学习内容的掌握情况的能力。
学生的学习行为被建模在连续时间序列上,通过时间长短期记忆网络来将结合了时间间隔特征的学生学习历史记录映射到能够代表学生对于学习内容掌握情况的表征空间上,表征空间上的值记做s,从而提高对连续时间序列数据进行数据挖掘的能力,进而增强了该方法追踪学生对于各学习内容的掌握情况的能力。
包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海伯禹信息科技有限公司,未经上海伯禹信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586104.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文分流的方法及装置
- 下一篇:一种鱼类洄游智能调控装置及其运行方法