[发明专利]一种基于值迭代网络的跨领域联邦学习模型及方法有效

申请号：	201811346991.3	申请日：	2018-11-13
公开（公告）号：	CN109711529B	公开（公告）日：	2022-11-08
发明（设计）人：	申珺怡;卓汉逵	申请（专利权）人：	中山大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	广州容大知识产权代理事务所(普通合伙) 44326	代理人：	刘新年
地址：	510275 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于值迭代网络领域联邦学习模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于值迭代网络的跨领域联邦学习模型，包括：

数据准备单元，用于通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入；

Federated-VIN网络建立单元，用于建立基于值迭代网络VIN的Federated-VIN网络结构，构建源领域与目标领域的值迭代模块VI的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数；

值迭代执行单元，用于于训练时对两领域的VI模块分别进行前向计算，通过VI模块实现若干次值迭代；

后向更新单元，用于后向计算更新网络参数，根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数；

所述新的关于两领域的联合损失函数为：

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_B(θ_B，θ_t)

其中θ_t表示全连接权重，A、B分别表示联邦学习的两领域，L_i(θ_i，θ_t)表示每个领域更新时的目标函数：L_i(θ_i，θ_t)＝L_i(θ_i)+L_t(θ_i，θ_t)，其中L_t(θ_i，θ_t)表示Federated-VIN中全连接权重的损失函数；

所述值迭代执行单元前向计算中，将每一次迭代近似为将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程；

所述后向更新单元采用交替更新方式，首先对Federated-VIN固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

2.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域，输入模型的状态观测包括当前位置、目标位置和网格地图图像，模型输出即当前状态下的最优动作策略。

3.如权利要求2所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：输入模型的状态观测，所述数据准备单元对每个轨迹中的每个状态s(i，j)，生成一个2*m*n大小的状态观测图像，图像的第一通道对网格地图障碍物的存在进行编码，而第二通道对目标位置进行编码，一条完整的观测向量由地图和状态s(i，j)组成，并对每个输入状态，生成一个动作标注作为专家策略。

4.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接，该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度，具有较高相似性的跨域动作分配较大的权重。

5.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述值迭代执行单元在每个迭代步根据Federated-VIN网络，将两领域各自的部分观测特征输入网络，并通过值迭代网络VIN前向计算得到各自的动作预测结果。

6.一种基于值迭代网络的跨领域联邦学习方法，包括如下步骤：

步骤S1，通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入；

步骤S2，建立基于值迭代网络VIN的Federated-VIN网络结构，构建源领域与目标领域的值迭代模块VI的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数；

步骤S3，于训练时对两领域的VI模块分别进行前向计算，通过VI模块实现若干次值迭代；

步骤S4，通过后向计算更新网络参数，根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数；

在步骤S2中，所述新的关于两领域的联合损失函数为：

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_B(θ_B，θ_t)

在步骤S3的前向计算中，将每一次迭代近似为将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程；

于步骤S4中，采用交替更新方式，首先对Federated-VIN网络固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811346991.3/1.html，转载请声明来源钻瓜专利网。

上一篇：基于特征图变化对卷积神经网络剪枝的方法
下一篇：一种考虑层内神经元互作用机制的人工神经网络优化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于值迭代网络的跨领域联邦学习模型及方法有效

专利文献下载