[发明专利]一种基于异质子图神经网络的相似信息检索方法和系统有效
申请号: | 202111550920.7 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114168804B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 陶建华;槐泽鹏;杨国花;张大伟;李冠君 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F16/9535;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 质子 神经网络 相似 信息 检索 方法 系统 | ||
本发明提出一种基于异质子图神经网络的相似信息检索方法和系统。其中,方法包括:首先,将业务场景数据面向异质图进行图结构化数据,即构建异质图;其次,设计了一种子图范式,据此设计异质子图神经网络,建模和学习中心节点的邻域信息,并在不需要交互记录等标签的低资源情况下进行模型训练,从而得到节点的嵌入表示;最后,设计了基于局部敏感哈希的快速相似度计算模块来实现对相似内容检索这一功能的在线服务。本发明能够解决了低资源场景下相似信息检索这一业务需求。
技术领域
本发明属于相似信息检索领域,尤其涉及一种基于异质子图神经网络的相似信息检索方法和系统。
背景技术
相似内容检索是信息检索系统中普遍又必不可少的一个功能,在多个业务场景中都有极强必要性。例如,电商推荐中,需要检索出和购买过商品类似的商品,这样的商品认为符合用户的历史购买兴趣,从而提升点击率和增加交易额;在新闻推送中,需要推送给用户感兴趣的内容,最常见的手段就是检索和该用户浏览过新闻相似的新闻,例如某用户浏览过“中超”新闻(足球),此时需要检索出“欧冠”相关新闻(足球);在网页搜索中,根据输入关键词往往只能检索出有限内容,这时为了增加推送量,需要给出与已检索出网页相似的网页,因此也需要相似内容检索。
目前实现相似内容准确检索一般基于两个方面:1引入更多特征信息。特征是指对关心的一类内容,引入更多补充信息。例如电商推荐中,引入商品的商铺、价格、类别、上架时间等,用这些辅助信息来作为内容相似的依据,例如均属于一个商铺和一个类别的商品可能相似。2获取更多标签记录。标签记录是指使用者对该系统的交互行为,如在同样场景下,用户点击了两个内容,则这两个内容我们认为相似。因此,标签记录越多越准确,越能提升相似内容检索的准确程度。
针对以上两个关键点,近些年常见的一类解决方法是基于图数据实现相似内容检索。图数据是指将数据进行图结构化,现实世界中很多场景可以采用图数据进行建模,例如在社交网络中,每个用户可以视为一个节点,两个用户之间存在互相关注时认为这两个节点间存在一条边,如此一个社交网络就可以转化为社交图数据,从而进行后续分析与应用。更进一步,图数据可分为同质图和异质图,同质图是指图上只有一类节点,例如上述社交图为只包含用户节点的同质图。相对于同质图,异质图是指在图中包含不同的节点类型和边类型。目前公认的是,异质图可以引入大量特征信息和丰富语义,是一类对现实世界复杂问题有较强表征能力的模型,即现实世界中许多场景和应用可以转化为异质图结构化数据,例如推荐场景中,将用户和商品视为两类节点,购买记录转化为用户和商品之间的边,即推荐异质图。
图表示:图表示是指将图中的节点、边和子图以低维向量的形式表现出来。
异质图:图中节点或边的类型不止一类的图称为异质图。
图神经网络:在图结构化数据上采用深度学习的神经网络来学习图表示,一般分为聚合传播两个过程,聚合是指将邻居节点信息聚合至中心节点,传播是指重复以上聚合过程从而扩大中心节点的感受野。
Embedding:又名嵌入,是指使用低维向量来表示一个实体的信息。例如使用低维向量表示一个字或图上一个节点。
元路径:元路径是指图上的一类路径,其规定该路径的范式,即路径上每个节点和边的类型。一个元路径范式下有不同实例。
目前在异质图上解决相似内容检索两个关键问题的主流方法有以下两类:
1)基于图搜索/推荐模型。此类方法基于图表示学习算法来建模异质节点间搜索或推荐的交互记录。首先基于图表示学习算法如图神经网络,生成图上节点初始Embedding,之后根据异质节点交互记录来进一步调整Embedding,从而使得相同输入下交互过的不同节点的Embedding互相逼近,即利用交互记录得到了相似节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111550920.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种洗涤剂自动投放装置和洗衣机
- 下一篇:一种RO膜片折叠机