[发明专利]一种基于值迭代网络的跨领域联邦学习模型及方法有效
| 申请号: | 201811346991.3 | 申请日: | 2018-11-13 |
| 公开(公告)号: | CN109711529B | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 申珺怡;卓汉逵 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
| 地址: | 510275 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 值迭代 网络 领域 联邦 学习 模型 方法 | ||
1.一种基于值迭代网络的跨领域联邦学习模型,包括:
数据准备单元,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
Federated-VIN网络建立单元,用于建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
值迭代执行单元,用于于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
后向更新单元,用于后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数;
所述新的关于两领域的联合损失函数为:
LFVIN(θA,θB,θt)=LA(θA,θt)+LB(θB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域,Li(θi,θt)表示每个领域更新时的目标函数:Li(θi,θt)=Li(θi)+Lt(θi,θt),其中Lt(θi,θt)表示Federated-VIN中全连接权重的损失函数;
所述值迭代执行单元前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;
所述后向更新单元采用交替更新方式,首先对Federated-VIN固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
2.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域,输入模型的状态观测包括当前位置、目标位置和网格地图图像,模型输出即当前状态下的最优动作策略。
3.如权利要求2所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:输入模型的状态观测,所述数据准备单元对每个轨迹中的每个状态s(i,j),生成一个2*m*n大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码,而第二通道对目标位置进行编码,一条完整的观测向量由地图和状态s(i,j)组成,并对每个输入状态,生成一个动作标注作为专家策略。
4.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。
5.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述值迭代执行单元在每个迭代步根据Federated-VIN网络,将两领域各自的部分观测特征输入网络,并通过值迭代网络VIN前向计算得到各自的动作预测结果。
6.一种基于值迭代网络的跨领域联邦学习方法,包括如下步骤:
步骤S1,通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
步骤S2,建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
步骤S3,于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
步骤S4,通过后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数;
在步骤S2中,所述新的关于两领域的联合损失函数为:
LFVIN(θA,θB,θt)=LA(θA,θt)+LB(θB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域,Li(θi,θt)表示每个领域更新时的目标函数:Li(θi,θt)=Li(θi)+Lt(θi,θt),其中Lt(θi,θt)表示Federated-VIN中全连接权重的损失函数;
在步骤S3的前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;
于步骤S4中,采用交替更新方式,首先对Federated-VIN网络固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811346991.3/1.html,转载请声明来源钻瓜专利网。





