[发明专利]一种基于强化学习的间隔重复调度方法在审
申请号: | 202110586104.5 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113283172A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞勇;张伟楠;杨正宇 | 申请(专利权)人: | 上海伯禹信息科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06Q10/04;G06Q10/06;G06Q50/20;G06N3/04;G06N3/08;G06F119/12 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 间隔 重复 调度 方法 | ||
1.一种基于强化学习的间隔重复调度方法,其特征在于,包括如下步骤:
步骤1、定义学生状态的观测空间,即调度策略在第k次学习时,所需要接受的输入ok;
步骤2、定义学生进行学习的时间范围[0,T]及所述调度策略的动作空间其中ci(1≤i≤n)代表了一个学习内容,n表示学生需要学习的学习内容的数目;
步骤3、学生选择某一时间点tk开始学习,其中k表示第k次学习,通过时间长短期记忆网络将学生学习历史记录o≤k映射到代表所述学生对于学习内容掌握情况的表征空间中的值sk,然后当前所述调度策略再根据sk为所述学生选择需要学习内容ak,其中
步骤4、所述学生对当前所述调度策略选择的内容ak进行学习,并反馈学习结果fk∈{0,1};
步骤5、先将所述学生的历史观测o≤k映射到表征空间然后学生模型中的记忆估测模块Mη根据sk判断所述学生是否掌握了学习内容,即输出进而定义相应的奖励(设),其中指的是所有维度的平均值;
步骤6、重复步骤3-5直到k到达某一预先设定好的值K或tk超过T;将收集到的数据序列{ti,oi,ai,ri,fi}1≤i≤K记作τ;基于τ,一方面利用强化学习算法来对所述调度策略进行优化,另一方面,将τ存储进重放池;
步骤7、从所述重放池中采样出序列来对所述学生模型中的记忆估测模块Mη和时间预测模块Gξ进行优化;
步骤8、如所述步骤3-5,唯一的不同只是将其中的学生替换成所述学生模型;所述学生模型中的记忆估测模块Mη和时间预测模块Gξ分别代替所述学生的记忆模型和时间行为模型来执行相关职能,即决定反馈fk和学习时间tk;
步骤9、基于步骤8中由所述学生模型和所述调度策略交互得到的数据,根据强化学习算法来优化当前的所述调度策略。
2.如权利要求1所述的方法,其特征在于,所述步骤1中,ok包括所述学生对于各个内容的学习次数、对于各个学习内容回答正确的次数、对于各个学习内容回答错误的次数、对于各个学习内容上一次学习时间至今的时间间隔、上一次学习至今的时间间隔。
3.如权利要求1所述的方法,其特征在于,所述步骤4中,所述学生包括记忆模型、时间行为模型,其中所述记忆模型用于确定所述学生是否掌握学习内容,所述时间行为模型用于确定所述学生会在什么时间点进行学习。
4.如权利要求3所述的方法,其特征在于,所述步骤4中,学习结果由所述学生的记忆模型决定,当所述记忆模型输出值大于某阈值时,fk=1,否则fk=0。
5.如权利要求4所述的方法,其特征在于,所述步骤5中,所述学生模型中的记忆估测模块Mη的输出的维度和的大小一致。
6.如权利要求5所述的方法,其特征在于,所述步骤5中,中每一个维度对应于记忆估测模块Mη对学生对于相应的学习内容的记忆程度的估测,是一个属于[0,1]之间的实数。
7.如权利要求6所述的方法,其特征在于,所述步骤6中,所述强化学习算法为演员-评论家算法,所述调度策略为演员-评论家算法中的演员模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海伯禹信息科技有限公司,未经上海伯禹信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586104.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文分流的方法及装置
- 下一篇:一种鱼类洄游智能调控装置及其运行方法