[发明专利]一种基于强化学习的间隔重复调度方法在审

专利信息
申请号: 202110586104.5 申请日: 2021-05-27
公开(公告)号: CN113283172A 公开(公告)日: 2021-08-20
发明(设计)人: 俞勇;张伟楠;杨正宇 申请(专利权)人: 上海伯禹信息科技有限公司
主分类号: G06F30/27 分类号: G06F30/27;G06Q10/04;G06Q10/06;G06Q50/20;G06N3/04;G06N3/08;G06F119/12
代理公司: 上海旭诚知识产权代理有限公司 31220 代理人: 郑立
地址: 200240 上海市闵*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 间隔 重复 调度 方法
【权利要求书】:

1.一种基于强化学习的间隔重复调度方法,其特征在于,包括如下步骤:

步骤1、定义学生状态的观测空间,即调度策略在第k次学习时,所需要接受的输入ok

步骤2、定义学生进行学习的时间范围[0,T]及所述调度策略的动作空间其中ci(1≤i≤n)代表了一个学习内容,n表示学生需要学习的学习内容的数目;

步骤3、学生选择某一时间点tk开始学习,其中k表示第k次学习,通过时间长短期记忆网络将学生学习历史记录o≤k映射到代表所述学生对于学习内容掌握情况的表征空间中的值sk,然后当前所述调度策略再根据sk为所述学生选择需要学习内容ak,其中

步骤4、所述学生对当前所述调度策略选择的内容ak进行学习,并反馈学习结果fk∈{0,1};

步骤5、先将所述学生的历史观测o≤k映射到表征空间然后学生模型中的记忆估测模块Mη根据sk判断所述学生是否掌握了学习内容,即输出进而定义相应的奖励(设),其中指的是所有维度的平均值;

步骤6、重复步骤3-5直到k到达某一预先设定好的值K或tk超过T;将收集到的数据序列{ti,oi,ai,ri,fi}1≤i≤K记作τ;基于τ,一方面利用强化学习算法来对所述调度策略进行优化,另一方面,将τ存储进重放池;

步骤7、从所述重放池中采样出序列来对所述学生模型中的记忆估测模块Mη和时间预测模块Gξ进行优化;

步骤8、如所述步骤3-5,唯一的不同只是将其中的学生替换成所述学生模型;所述学生模型中的记忆估测模块Mη和时间预测模块Gξ分别代替所述学生的记忆模型和时间行为模型来执行相关职能,即决定反馈fk和学习时间tk

步骤9、基于步骤8中由所述学生模型和所述调度策略交互得到的数据,根据强化学习算法来优化当前的所述调度策略。

2.如权利要求1所述的方法,其特征在于,所述步骤1中,ok包括所述学生对于各个内容的学习次数、对于各个学习内容回答正确的次数、对于各个学习内容回答错误的次数、对于各个学习内容上一次学习时间至今的时间间隔、上一次学习至今的时间间隔。

3.如权利要求1所述的方法,其特征在于,所述步骤4中,所述学生包括记忆模型、时间行为模型,其中所述记忆模型用于确定所述学生是否掌握学习内容,所述时间行为模型用于确定所述学生会在什么时间点进行学习。

4.如权利要求3所述的方法,其特征在于,所述步骤4中,学习结果由所述学生的记忆模型决定,当所述记忆模型输出值大于某阈值时,fk=1,否则fk=0。

5.如权利要求4所述的方法,其特征在于,所述步骤5中,所述学生模型中的记忆估测模块Mη的输出的维度和的大小一致。

6.如权利要求5所述的方法,其特征在于,所述步骤5中,中每一个维度对应于记忆估测模块Mη对学生对于相应的学习内容的记忆程度的估测,是一个属于[0,1]之间的实数。

7.如权利要求6所述的方法,其特征在于,所述步骤6中,所述强化学习算法为演员-评论家算法,所述调度策略为演员-评论家算法中的演员模块。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海伯禹信息科技有限公司,未经上海伯禹信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110586104.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top