[发明专利]一种基于值迭代网络的跨领域联邦学习模型及方法有效

专利信息
申请号: 201811346991.3 申请日: 2018-11-13
公开(公告)号: CN109711529B 公开(公告)日: 2022-11-08
发明(设计)人: 申珺怡;卓汉逵 申请(专利权)人: 中山大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 广州容大知识产权代理事务所(普通合伙) 44326 代理人: 刘新年
地址: 510275 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 值迭代 网络 领域 联邦 学习 模型 方法
【权利要求书】:

1.一种基于值迭代网络的跨领域联邦学习模型,包括:

数据准备单元,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;

Federated-VIN网络建立单元,用于建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;

值迭代执行单元,用于于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;

后向更新单元,用于后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数;

所述新的关于两领域的联合损失函数为:

LFVINA,θB,θt)=LAA,θt)+LBB,θt)

其中θt表示全连接权重,A、B分别表示联邦学习的两领域,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示Federated-VIN中全连接权重的损失函数;

所述值迭代执行单元前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;

所述后向更新单元采用交替更新方式,首先对Federated-VIN固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。

2.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域,输入模型的状态观测包括当前位置、目标位置和网格地图图像,模型输出即当前状态下的最优动作策略。

3.如权利要求2所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:输入模型的状态观测,所述数据准备单元对每个轨迹中的每个状态s(i,j),生成一个2*m*n大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码,而第二通道对目标位置进行编码,一条完整的观测向量由地图和状态s(i,j)组成,并对每个输入状态,生成一个动作标注作为专家策略。

4.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。

5.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述值迭代执行单元在每个迭代步根据Federated-VIN网络,将两领域各自的部分观测特征输入网络,并通过值迭代网络VIN前向计算得到各自的动作预测结果。

6.一种基于值迭代网络的跨领域联邦学习方法,包括如下步骤:

步骤S1,通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;

步骤S2,建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;

步骤S3,于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;

步骤S4,通过后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数;

在步骤S2中,所述新的关于两领域的联合损失函数为:

LFVINA,θB,θt)=LAA,θt)+LBB,θt)

其中θt表示全连接权重,A、B分别表示联邦学习的两领域,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示Federated-VIN中全连接权重的损失函数;

在步骤S3的前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;

于步骤S4中,采用交替更新方式,首先对Federated-VIN网络固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811346991.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top