[发明专利]基于异构网络信息嵌入模型的交互可视推荐方法在审
| 申请号: | 202111371845.8 | 申请日: | 2021-11-18 |
| 公开(公告)号: | CN114238750A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 汤颖;王攸妍;周元博 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/906;G06F16/904;G06F16/215;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 信息 嵌入 模型 交互 可视 推荐 方法 | ||
1.基于异构网络信息嵌入模型的交互可视推荐方法,包括如下步骤:
步骤1:对数据进行爬取和清洗;从真实的豆瓣电影网站中收集豆瓣用户数据和豆瓣电影数据,并对其进行清洗,保证数据的有效性;
1.1获取原始数据集,随机选取一位豆瓣用户,根据其观影数量的百分比进行随机保留,并从其被关注列表中随机选取三位用户,重复上述过程;接着,统计所有用户的观影记录,保留有效电影编号,并进行电影信息的爬取;
1.2对原始数据集进行数据预处理,为针对模型的评估更加公平有效,即防止出现无效数据,以用户的观影记录至少50、电影被有效用户观看次数20等条件进行数据过滤;因推荐模型通常存在冷启动问题,为此保留10%的观影记录50的用户作为冷启动数据以进行特殊情况的评估;
1.3模型的公平评估,为了使模型的对比评估具有有效性、公平性,将嵌入模型的下游目标统一为推荐任务,并将它们的评估指标重构为推荐任务中最常见的评估指标,分别为准确率、召回率、AUC,计算方式如下所示;
其中,TP表示正确分类的正样本,TN为正确分类的负样本,FP为错误分类的正样本,FN为错误分类的负样本,M为正样本的数目,N为负样本的数目,ranki表示正样本i的预测分数;
另外,增加了推荐结果的个性化指标,增加推荐结果的相似性评估,该指标计算不同用户的推荐列表之间的余弦相似性;用户i的个性化分数计算过程如公式(4)所示:
其中,U表示用户集合,qi表示用户i的某个推荐列表所构成的向量;
步骤2:获取模型训练过程中的参数和特征数据;
对以上步骤预处理好的电影数据构造异构电影信息网络作为模型的输入,接着使用三个具有代表性的异构网络嵌入模型HetGNN,KGAT和NIRec进行训练,保留训练过程中的相关参数和特征信息;模型的处理和数据保存包含以下步骤:
2.1获取NIRec模型的元路径特征;
为了探索基于元路径邻居的异构网络嵌入模型在使用端到端交互建模方法中所学邻居特征的差异,保留异构网络嵌入模型在计算基于路径注意力权重参数时所枚举的路径实例信息,并作为可视化数据;
该路径信息分为两个部分,一是基于实例路径的节点特征信息二是基于实例路径的路径特征信息,计算方法分别如下所示;
表示交互矩阵中基于路径ρ的实例路径信息,W、α、β、b均属于可训练参数,Nρj表示基于元路径引导的邻域与单一元路径和语义特定的聚合信息;
上述路径信息是所有正负样本的特征路径,为保证模型对比的公平性,使用最终推荐结果,即正样本,对路径进行了筛选,仅保留了源节点可达目标节点的实例路径信息作为可视化数据;
2.2获取KGAT模型的注意力权重特征;
为了探索基于信息传递机制的异构网络嵌入模型结合注意力机制所构成的非自定义软路径所学习得到的邻居特征之间的差异,保留异构网络嵌入模型训练过程中的双向注意力权重参数π(h,r,t),表示邻居节点对源节点的重要性,具体计算公式如下;
其中,h表示源节点,t表示尾节点,r表示尾节点到源节点的关系,Nh表示源节点周围所有邻居节点的集合;
接着,根据所得数据计算不同类型节点之间的平均注意力值,并将该值作为构建元路径的邻居节点筛选阈值,高于阈值的邻居节点视为重要节点,反之则舍去;最终,利用深度优先算法遍历每一个源节点的重要邻居节点,以生成长度小于4的能够达到目标节点的元路径,该路径包含了从源节点到目标节点之间的特征信息,故以此作为模型对比的可视化数据;
2.3获取HetGNN模型的元路径特征;
为了探索基于元路径的异构网络嵌入模型在邻居节点聚合过程中所学得的特征差异,将参与模型学习过程的路径实例进行了保留,作为模型对比的可视化数据;
在异构网络嵌入模型的初始化过程,利用带重启的随机游走算法生成节点初始embedding时,按照各类型节点占节点总数的相对比例进行等比例采样,针对每一节点的电影邻居、用户邻居、类型邻居、演员邻居、导演邻居进行采样,由以上邻居构成的实例路径将由下列公式计算得到
通过以上三个模型对原始数据进行学习,保留NIRec模型在学习过程中使用的节点实体路径作为路径融合特征;保留KGAT模型在学习过程中的各节点对的注意力权重,并通过网络连接关系构造实体路径作为融合特征;保留HetGNN模型在学习过程中采样的实体路径信息作为路径融合特征;
步骤3:基于用户交互的模型对比探索设计;
基于以上步骤所保留的路径特征数据,根据不同指标数据以及模型参数设计相应的可视化图表;具体步骤如下所示:
3.1可视化设计的数据选择入口及细节概览入口,根据模型研究人员对于模型评估的指标概述需求,使用环形堆叠柱状图展示异构网络嵌入模型针对推荐任务的评估指标,每个条形图代表某一用户的推荐评估结果,每种颜色代表一个模型;为便于数据筛选,需要设计更多交互方法,选择刷框选指定目标;除此之外,设计了展示不同模型之间推荐结果的关系韦恩图,对应结果随机散落于上述模型对应颜色区域中,并将命中用户观影历史的散点结果附上白色边框,表示其属于预测正确的电影;
3.2可视化对比设计的模型细节,基于步骤3.1的设计和模型开发人员对于查看嵌入模型在聚合邻居过程中的细节信息需求,设计了一种可伸缩的力导引图,展示选定目标及其推荐结果间的元路径,路径包括UMUM(user-movie-user-movie)、UMGM(user-movie-genre-movie)、UMAM(user-movie-actor-movie)、UMDM(user-movie-director-movie);其中,路径的宽度代表该路径对目标节点的重要程度,节点半径代表其包含的实体节点越多,重要程度越高;
步骤4:基于异构网络嵌入模型的交互可视推荐;
异构网络嵌入模型旨在学习异构图中多类型的对象和关系,挖掘隐含的丰富结构和语义信息用于推荐任务;
基于元路径的异构嵌入方法NIRec和HetGNN,用于推荐系统需经过三个步骤,一、由专家根据领域知识设计有效的元路径;二、异构网络嵌入模型利用神经元通过上述元路径学习用户邻域特征,分别获得用户和物品的嵌入向量,以此来挖掘用户-物品交互图中的用户偏好;三、将用户的嵌入向量与所有物品嵌入向量进行相似性计算,排除训练数据,相似度最高的前K个物品作为推荐结果;
基于信息传递机制的异构嵌入方法KGAT,利用异构图的天然连接属性,将与目标节点相连的尾节点通过边进行特征学习,具体步骤如下:一、利用知识图领域常见的TransR方法获得异构图中各节点的嵌入向量;二、将目标节点周围的邻居特征通过传播机制融入节点的嵌入向量中,并使用注意力机制来计算每一个邻居节点的重要性,以此区别各特征的融入程度;三、迭代高阶传播后,将用户和物品的高阶嵌入向量相乘,获得推荐的最终概率,取推荐概率最高的前K个物品作为推荐;
最终,在推荐结果溯源视图中展示了不同模型针对推荐电影与目标用户之间的路径信息;基于元路径的方法通过元路径提供了推荐的可解释性,嵌入模型通过该路径寻找与目标用户看过相同电影的人还看了什么电影,以此作为推荐,挖掘了相似用户的偏好特征;基于传播机制的方法通过邻居关系中的注意力分数提供了推荐的可解释性,最终推荐电影中包含了该类型特征,表明异构网络嵌入模型的推荐符合用户偏好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111371845.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





