[发明专利]RFID多阅读器的防碰撞方法及系统有效
申请号: | 202110399355.2 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113343725B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 杨律青;黄晨曦;丘以书;钱伟华;李鼎昭;林岚良;沈少钦 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K7/10 | 分类号: | G06K7/10;G06N3/08 |
代理公司: | 厦门创象知识产权代理有限公司 35232 | 代理人: | 叶秀红;尤怀成 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | rfid 阅读器 碰撞 方法 系统 | ||
1.一种RFID多阅读器的防碰撞方法,其特征在于,包括以下步骤:
获取阅读器的读取请求,并根据所述读取请求随机分配一个信道资源路径给所述阅读器;
对所述随机分配的信道资源路径进行仿真处理,以输出对应的奖励值,以便根据所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
在所述临时存储表存满之后,将所述临时存储表作为训练集输入到预先建立的BP神经网络进行训练,以得到训练好的防碰撞模型;
获取当前阅读器可用的信道资源路径数,并将当前阅读器可用的信道资源路径数输入到所述训练好的防碰撞模型,以得到最优的信道资源路径;
其中,Q值包括状态S和动作a,其中,状态S表示当前阅读器可用的信道资源路径数,动作a表示分配一个信道资源路径给当前阅读器;
其中,根据所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中,包括:
根据所述随机分配的信道资源路径对应的Q值在所述预先建立的临时存储表中进行检索,以判断所述临时存储表中是否存在所述Q值;
如果是,则直接通过所述Q值和所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
如果否,则将所述Q值中的状态S输入到预先建立的BP神经网络,以输出所有动作预测的Q值,并选择最大Q值和所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
其中,根据以下公式更新Q值:
Q’(s,a)=(1-α)Q(s,a)+αγC(s,a)+Q(s’,a’)
其中,Q’(s,a)表示更新后的当前动作状态的Q值,α表示学习率,Q(s,a)表示当前动作状态的Q值,γ表示折扣因子,C(s,a)表示当前状态下的平均奖励值,Q(s’,a’)表示下一个状态动作的Q值。
2.如权利要求1所述的RFID多阅读器的防碰撞方法,其特征在于,在所述临时存储表存满之后,将所述临时存储表作为训练集输入到预先建立的BP神经网络进行训练,以得到训练好的防碰撞模型,包括:
判断所述临时存储表是否存满;
如果是,则将所述临时存储表作为训练集输入到预先建立的BP神经网络进行训练,并更新学习次数,以及将所述临时存储表里的内容清空,根据当前学习次数和预先设置的学习次数判断是否达到学习次数;
如果否,则直接根据当前学习次数和预先设置的学习次数判断是否达到学习次数;
如果达到学习次数则完成信道资源路径分配,如果未达到学习次数则重新获取阅读器的读取请求,以进行新一轮的迭代训练。
3.一种计算机可读存储介质,其特征在于,其上存储有RFID多阅读器的防碰撞程序,该RFID多阅读器的防碰撞程序被处理器执行时实现如权利要求1-2中任一项所述的RFID多阅读器的防碰撞方法。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-2中任一项所述的RFID多阅读器的防碰撞方法。
5.一种RFID多阅读器的防碰撞系统,其特征在于,包括:
获取模块,用于获取阅读器的读取请求,并根据所述读取请求随机分配一个信道资源路径给所述阅读器;
更新处理模块,用于对所述随机分配的信道资源路径进行仿真处理,以输出对应的奖励值,以便根据所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
训练模块,用于在所述临时存储表存满之后,将所述临时存储表作为训练集输入到预先建立的BP神经网络进行训练,以得到训练好的防碰撞模型;
防碰撞模块,用于获取当前阅读器可用的信道资源路径数,并将当前阅读器可用的信道资源路径数输入到所述训练好的防碰撞模型,以得到最优的信道资源路径;
其中,Q值包括状态S和动作a,其中,状态S表示当前阅读器可用的信道资源路径数,动作a表示分配一个信道资源路径给当前阅读器;
其中,更新处理模块还用于:
根据所述随机分配的信道资源路径对应的Q值在所述预先建立的临时存储表中进行检索,以判断所述临时存储表中是否存在所述Q值;
如果是,则直接通过所述Q值和所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
如果否,则将所述Q值中的状态S输入到预先建立的BP神经网络,以输出所有动作预测的Q值,并选择最大Q值和所述奖励值更新Q值,并将更新后的Q值添加到预先建立的临时存储表中;
其中,根据以下公式更新Q值:
Q’(s,a)=(1-α)Q(s,a)+αγC(s,a)+Q(s’,a’)
其中,Q’(s,a)表示更新后的当前动作状态的Q值,α表示学习率,Q(s,a)表示当前动作状态的Q值,γ表示折扣因子,C(s,a)表示当前状态下的平均奖励值,Q(s’,a’)表示下一个状态动作的Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110399355.2/1.html,转载请声明来源钻瓜专利网。