[发明专利]一种基于强化学习和动态搜索的自动化装箱方法在审

申请号：	202210033004.4	申请日：	2022-01-12
公开（公告）号：	CN114548855A	公开（公告）日：	2022-05-27
发明（设计）人：	陈月峰;任德平	申请（专利权）人：	中通云仓科技有限公司
主分类号：	G06Q10/08	分类号：	G06Q10/08;G06N20/00;G06K9/62
代理公司：	北京索睿邦知识产权代理有限公司 11679	代理人：	朱玲
地址：	311106 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习动态搜索自动化装箱方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和动态搜索的自动化装箱方法，包括步骤：

步骤S1，对将要堆放在同一箱体的货品进行统计，记为数量m，并赋予该箱体中的每个货品编号为i；

步骤S2，在货箱中开始进行堆放货品，判断逻辑L1是否成立，如果逻辑L1结果为假，则执行下一步骤，否则执行动作D1；

步骤S3，继续堆放货品，判断逻辑L2是否成立，如果逻辑L2结果为假，则执行下一步骤，否则执行动作D2；

步骤S4，判断是否已放完所有货品，如果判断为真，则货品堆放完成，否则执行步骤S2。

2.根据权利1所述的基于强化学习和动态搜索的智能装箱方法，所述步骤S1中每个货品的编号i满足关系：

i∈m

i＝i+1。

3.根据权利1所述的基于强化学习和动态搜索的智能装箱方法，所述步骤S2中的逻辑L1，是指货品与货箱的边界碰撞逻辑，具体计算公式为：

x′_i≤L，y′_i≤W，z′_i≤H，i＝1，2，3…，n

其中，L，W，H分别表示货箱的长，宽，高，i表示当前货品的编号，(x_i，y_i，z_i)为货品放入货箱后的右后下三维坐标，(x′_i，y′_i，z′_i)为货品放入货箱后的左前上三维坐标。

4.根据权利1所述的基于强化学习和动态搜索的智能装箱方法，所述步骤S2中的动作D1，是指改变货品堆放姿态，具体地，货品堆放时共6种姿态，每次旋转分别以货品的长宽、长高、宽高平面为底，顺时针旋转90度，每旋转一次可以更新一次货品的姿态，并把旋转货品动作a_i存入知识库。

5.根据权利1所述的基于强化学习和动态搜索的智能装箱方法，所述步骤S2中的逻辑L2，是指货品与货品之间的重叠判断逻辑，具体计算公式为：

其中，x′_i，y′_i，z′_i分别表示表示当前货品左前上x轴，y轴，z轴的三维坐标，x′_i+1，y′_i+1，z′_i+1分别表示新放入货品左前上x轴，y轴，z轴的三维坐标，T_i表示货品i的接触面积，即货品底部至少有一半面积被支撑，不得悬空堆放。

6.根据权利1所述的基于强化学习和动态搜索的智能装箱方法，所述步骤S2中的动作D2，是指改变货品的堆放位置，具体地，建立一个行李码放状态矩阵G，每次改变货品堆放位置的动作前，都以动态搜索算法来计算出可堆放货品的三维坐标，通过查询矩阵G确认该坐标可执行后，再更新矩阵G中的参数，并执行改变货品堆放位置的动作，

矩阵G的公式为：

其中，(x_i，y_i，z_i)表示编号为i的货品可选堆放位置的坐标。

7.根据权利6所述的基于强化学习和动态搜索的智能装箱方法，所述动态搜索算法，是指以最大化利用箱体进行货品装载为目标，通过动态规划算法，达到最大化利用装箱体积的目的，具体步骤包括：

步骤A1，定义P为以相同的姿态进行叠加堆放后，形成的复合货品层，根据已有P求出V_act：

其中，V_act是定义体积和实际体积之差，表示箱体中剩余的堆放空间，表示货品复合堆放层的填充率，为复合货品底面的最小外包矩形对应尺寸，H为叠加后形成的高度；

步骤A2，调用动态规划算法，生成新一轮P′，并求出相应的V′_act；

步骤A3，选取V′_act最小的堆放货品位置a_j，把堆放货品位置a_j对应的三维坐标信息作为更新矩阵G的参数，并把堆放货品位置a_j存入知识库。

8.根据权利4和权利7所述的基于强化学习和动态搜索的智能装箱方法，所述知识库存储旋转货品动作a_i和堆放货品位置a_j，是作为训练数据生成强化学习模型，用于初始化后续的货品堆放动作策略，具体步骤包括：

步骤B1，设置目标函数作为智能体学习的目标，具体地，以最大化箱体总空间利用率maxf和最小化剩余堆放空间V_act为目标函数，箱体总空间利用率的计算公式为：

其中，l_i，w_i，h_i分别表示货品i的长、宽、高，L，W，H分别表示箱体的长，宽高；

步骤B2，设置奖励函数用于评估执行动作的结果，计算公式为：

R＝D+ω(maxf，Vact)

其中，ω为权重系数，表示对两种奖励的重视程度，D表示货品到货箱顶部的距离；

步骤B3，采用可迭代计算的Q函数，来指导智能体在箱体堆放过程中采取的动作策略，使得智能体在不断的尝试和纠正中，不断逼近目标函数，从而获得最优箱体堆放动作，具体计算公式为：

Q(s，a)＝Q(s，a)+α[R+γMax Q(s′，a)-Q(s，a)]

a＝a_i+a_j

其中，a表示智能体的动作空间，包括旋转货品动作a_i和堆放货品位置a_j，Q(s，a)表示更新参数，α为学习因子，R为奖励函数，γ为折扣因子，表示对未来奖励的重视程度，s′为货品状态s下执行动作a之后的状态；

步骤B4，将获取的最优旋转货品动作a_i和堆放货品位置a_j作为训练数据，步骤B4，将获取的最优旋转货品动作a_i和堆放货品位置a_j作为训练数据，训练强化学习模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中通云仓科技有限公司，未经中通云仓科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210033004.4/1.html，转载请声明来源钻瓜专利网。

上一篇：仓库拣货路径确定方法、装置以及存储介质
下一篇：图像处理方法、智能终端及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习和动态搜索的自动化装箱方法在审

专利文献下载