[发明专利]一种基于深度强化学习的图结构学习算法在审

申请号：	202310571599.3	申请日：	2023-05-21
公开（公告）号：	CN116662901A	公开（公告）日：	2023-08-29
发明（设计）人：	丁洁;孙国崴	申请（专利权）人：	复旦大学
主分类号：	G06F18/2415	分类号：	G06F18/2415;G06F18/20;G06F17/11;G06N7/01;G06N3/092;G06N3/0464
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习结构算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的图结构学习算法，其中，图结构学习问题归纳如下：

其中，G＝(A,X)表示一个属性图，A∈{0,1}^N×N是表示N个节点的对称邻接矩阵，是一个存放了顶点间关系即边或弧的二维数组，X∈{0,1}^N×F或表示具有F维的二值节点特征或连续节点特征；V表示全部节点集，V_L表示标签可见的节点集，v_j∈V_L表示标签已知的节点，v_i∈V-V_L表示标签未知的节点；c_i表示节点i的真实类别标签，c_j表示节点j的真实类别标签；表示经过图结构学习过程后得到的图，表示图结构优化后的邻接矩阵，即经图结构学习优化后，若节点k到节点l有连边，否则θ表示GNN分类器的参数，表示图结构优化后与相关的分类器参数，表示优化后的图上重新训练的GNN节点分类器，和分别表示不同阶段的预测的标签信息，L_train和L_test分别表示GNN对于图的训练阶段和测试阶段的交叉熵损失函数；

图结构学习算法，其输入为图数据特征和不完整的图结构，通过增加连边来优化不完整的图结构，以获得更优的图表达，通过GNN对改进后的图结构进行消息聚合，获得相应的图表示；最后，通过最小化损失函数来迭代地更新GNN和DDQN中的参数，最终提升GNN的节点分类的准确率；

将图结构学习过程建模为一个有限水平马尔可夫决策过程其中，表示由t时刻的图和要增加连边的节点v组成的所有可能状态s_t的集合；代表所有可能的动作a_t的集合，表示添加连边的操作；T表示状态转移概率；γ∈[0,1]表示折扣系数，调整该系数来确定代理对短期回报的重视程度；R代表代理在执行动作后收到的奖励，奖励函数设置为：

其中，c是节点v的类别标签，而表示学习过程的中间图；

由于图结构的非欧几里德性质，把相应问题视为有限范围内的离散优化问题，使用Q-learning作为策略优化方法，Q-learning满足如下的贝尔曼最优方程：

其中，Q^*(s_t,a_t)表示在t时刻，在s_t状态下采取动作a_t后，得到的最大的总奖励的值，即最优价值函数；r(s_t,a_t)表示在s_t状态下采取动作a_t后的即时奖励；表示在在t+1时刻，在s_t+1状态下采取动作a′的最大总奖励的值，γ为折扣因子；

在t时刻，针对最优值Q^*的动作选择的贪婪策略π满足：

采用DDQN来减少Q值的估计误差；DDQN根据t时刻的状态s_t和动作a_t获得Q函数Q(s_t,a_t)的值，并根据Q值对动作进行评分，指导代理做出决策；为了更精确地选择节点，为每个节点提供两个不同的动作于是引入两个DDQN:Q＝{Q⁽¹⁾,Q⁽²⁾}，其中Q⁽¹⁾引导深度强化学习(DRL)代理选择与相关的节点v₁，Q⁽²⁾决定与对应的第二个节点v₂的选择；最后，代理连接节点v和v₂以增加一条边，完成对于单个节点的结构优化。