[发明专利]一种基于深度强化学习的图结构学习算法在审
申请号: | 202310571599.3 | 申请日: | 2023-05-21 |
公开(公告)号: | CN116662901A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 丁洁;孙国崴 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F18/2415 | 分类号: | G06F18/2415;G06F18/20;G06F17/11;G06N7/01;G06N3/092;G06N3/0464 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 结构 算法 | ||
1.一种基于深度强化学习的图结构学习算法,其中,图结构学习问题归纳如下:
其中,G=(A,X)表示一个属性图,A∈{0,1}N×N是表示N个节点的对称邻接矩阵,是一个存放了顶点间关系即边或弧的二维数组,X∈{0,1}N×F或表示具有F维的二值节点特征或连续节点特征;V表示全部节点集,VL表示标签可见的节点集,vj∈VL表示标签已知的节点,vi∈V-VL表示标签未知的节点;ci表示节点i的真实类别标签,cj表示节点j的真实类别标签;表示经过图结构学习过程后得到的图,表示图结构优化后的邻接矩阵,即经图结构学习优化后,若节点k到节点l有连边,否则θ表示GNN分类器的参数,表示图结构优化后与相关的分类器参数,表示优化后的图上重新训练的GNN节点分类器,和分别表示不同阶段的预测的标签信息,Ltrain和Ltest分别表示GNN对于图的训练阶段和测试阶段的交叉熵损失函数;
图结构学习算法,其输入为图数据特征和不完整的图结构,通过增加连边来优化不完整的图结构,以获得更优的图表达,通过GNN对改进后的图结构进行消息聚合,获得相应的图表示;最后,通过最小化损失函数来迭代地更新GNN和DDQN中的参数,最终提升GNN的节点分类的准确率;
将图结构学习过程建模为一个有限水平马尔可夫决策过程其中,表示由t时刻的图和要增加连边的节点v组成的所有可能状态st的集合;代表所有可能的动作at的集合,表示添加连边的操作;T表示状态转移概率;γ∈[0,1]表示折扣系数,调整该系数来确定代理对短期回报的重视程度;R代表代理在执行动作后收到的奖励,奖励函数设置为:
其中,c是节点v的类别标签,而表示学习过程的中间图;
由于图结构的非欧几里德性质,把相应问题视为有限范围内的离散优化问题,使用Q-learning作为策略优化方法,Q-learning满足如下的贝尔曼最优方程:
其中,Q*(st,at)表示在t时刻,在st状态下采取动作at后,得到的最大的总奖励的值,即最优价值函数;r(st,at)表示在st状态下采取动作at后的即时奖励;表示在在t+1时刻,在st+1状态下采取动作a′的最大总奖励的值,γ为折扣因子;
在t时刻,针对最优值Q*的动作选择的贪婪策略π满足:
采用DDQN来减少Q值的估计误差;DDQN根据t时刻的状态st和动作at获得Q函数Q(st,at)的值,并根据Q值对动作进行评分,指导代理做出决策;为了更精确地选择节点,为每个节点提供两个不同的动作于是引入两个DDQN:Q={Q(1),Q(2)},其中Q(1)引导深度强化学习(DRL)代理选择与相关的节点v1,Q(2)决定与对应的第二个节点v2的选择;最后,代理连接节点v和v2以增加一条边,完成对于单个节点的结构优化。
2.根据权利要求1所述的图结构学习算法,其特征在于,具体步骤为:
步骤1,获得节点嵌入向量和图嵌入向量,作为DDQN的输入;
步骤2,强化学习代理首先通过动作确定第一个节点v1;
步骤3,根据由第一个动作选择的节点v1,强化学习代理通过动作确定第二个节点v2;
步骤4,强化学习代理连接节点v和v2,以增加一条边,完成对于单个节点的结构优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310571599.3/1.html,转载请声明来源钻瓜专利网。