[发明专利]一种基于强化学习和动态搜索的自动化装箱方法在审
申请号: | 202210033004.4 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114548855A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 陈月峰;任德平 | 申请(专利权)人: | 中通云仓科技有限公司 |
主分类号: | G06Q10/08 | 分类号: | G06Q10/08;G06N20/00;G06K9/62 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 朱玲 |
地址: | 311106 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 动态 搜索 自动化 装箱 方法 | ||
1.一种基于强化学习和动态搜索的自动化装箱方法,包括步骤:
步骤S1,对将要堆放在同一箱体的货品进行统计,记为数量m,并赋予该箱体中的每个货品编号为i;
步骤S2,在货箱中开始进行堆放货品,判断逻辑L1是否成立,如果逻辑L1结果为假,则执行下一步骤,否则执行动作D1;
步骤S3,继续堆放货品,判断逻辑L2是否成立,如果逻辑L2结果为假,则执行下一步骤,否则执行动作D2;
步骤S4,判断是否已放完所有货品,如果判断为真,则货品堆放完成,否则执行步骤S2。
2.根据权利1所述的基于强化学习和动态搜索的智能装箱方法,所述步骤S1中每个货品的编号i满足关系:
i∈m
i=i+1。
3.根据权利1所述的基于强化学习和动态搜索的智能装箱方法,所述步骤S2中的逻辑L1,是指货品与货箱的边界碰撞逻辑,具体计算公式为:
x′i≤L,y′i≤W,z′i≤H,i=1,2,3…,n
其中,L,W,H分别表示货箱的长,宽,高,i表示当前货品的编号,(xi,yi,zi)为货品放入货箱后的右后下三维坐标,(x′i,y′i,z′i)为货品放入货箱后的左前上三维坐标。
4.根据权利1所述的基于强化学习和动态搜索的智能装箱方法,所述步骤S2中的动作D1,是指改变货品堆放姿态,具体地,货品堆放时共6种姿态,每次旋转分别以货品的长宽、长高、宽高平面为底,顺时针旋转90度,每旋转一次可以更新一次货品的姿态,并把旋转货品动作ai存入知识库。
5.根据权利1所述的基于强化学习和动态搜索的智能装箱方法,所述步骤S2中的逻辑L2,是指货品与货品之间的重叠判断逻辑,具体计算公式为:
其中,x′i,y′i,z′i分别表示表示当前货品左前上x轴,y轴,z轴的三维坐标,x′i+1,y′i+1,z′i+1分别表示新放入货品左前上x轴,y轴,z轴的三维坐标,Ti表示货品i的接触面积,即货品底部至少有一半面积被支撑,不得悬空堆放。
6.根据权利1所述的基于强化学习和动态搜索的智能装箱方法,所述步骤S2中的动作D2,是指改变货品的堆放位置,具体地,建立一个行李码放状态矩阵G,每次改变货品堆放位置的动作前,都以动态搜索算法来计算出可堆放货品的三维坐标,通过查询矩阵G确认该坐标可执行后,再更新矩阵G中的参数,并执行改变货品堆放位置的动作,
矩阵G的公式为:
其中,(xi,yi,zi)表示编号为i的货品可选堆放位置的坐标。
7.根据权利6所述的基于强化学习和动态搜索的智能装箱方法,所述动态搜索算法,是指以最大化利用箱体进行货品装载为目标,通过动态规划算法,达到最大化利用装箱体积的目的,具体步骤包括:
步骤A1,定义P为以相同的姿态进行叠加堆放后,形成的复合货品层,根据已有P求出Vact:
其中,Vact是定义体积和实际体积之差,表示箱体中剩余的堆放空间,表示货品复合堆放层的填充率,为复合货品底面的最小外包矩形对应尺寸,H为叠加后形成的高度;
步骤A2,调用动态规划算法,生成新一轮P′,并求出相应的V′act;
步骤A3,选取V′act最小的堆放货品位置aj,把堆放货品位置aj对应的三维坐标信息作为更新矩阵G的参数,并把堆放货品位置aj存入知识库。
8.根据权利4和权利7所述的基于强化学习和动态搜索的智能装箱方法,所述知识库存储旋转货品动作ai和堆放货品位置aj,是作为训练数据生成强化学习模型,用于初始化后续的货品堆放动作策略,具体步骤包括:
步骤B1,设置目标函数作为智能体学习的目标,具体地,以最大化箱体总空间利用率maxf和最小化剩余堆放空间Vact为目标函数,箱体总空间利用率的计算公式为:
其中,li,wi,hi分别表示货品i的长、宽、高,L,W,H分别表示箱体的长,宽高;
步骤B2,设置奖励函数用于评估执行动作的结果,计算公式为:
R=D+ω(maxf,Vact)
其中,ω为权重系数,表示对两种奖励的重视程度,D表示货品到货箱顶部的距离;
步骤B3,采用可迭代计算的Q函数,来指导智能体在箱体堆放过程中采取的动作策略,使得智能体在不断的尝试和纠正中,不断逼近目标函数,从而获得最优箱体堆放动作,具体计算公式为:
Q(s,a)=Q(s,a)+α[R+γMax Q(s′,a)-Q(s,a)]
a=ai+aj
其中,a表示智能体的动作空间,包括旋转货品动作ai和堆放货品位置aj,Q(s,a)表示更新参数,α为学习因子,R为奖励函数,γ为折扣因子,表示对未来奖励的重视程度,s′为货品状态s下执行动作a之后的状态;
步骤B4,将获取的最优旋转货品动作ai和堆放货品位置aj作为训练数据,步骤B4,将获取的最优旋转货品动作ai和堆放货品位置aj作为训练数据,训练强化学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中通云仓科技有限公司,未经中通云仓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210033004.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理