[发明专利]一种基于标签图转化的领域文本相似度计算方法及系统在审
申请号: | 202111040367.2 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113742494A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 程戈;张冬良;廖永安;侯壹凡 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62 |
代理公司: | 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 | 代理人: | 徐楼 |
地址: | 411105 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 转化 领域 文本 相似 计算方法 系统 | ||
本发明属于图数据处理领域,公开了一种基于标签图转化的领域文本相似度计算方法及系统,方法包括:从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;知识图谱表征初始化,获得实体和关系的表征向量;将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;无标签化知识图谱节点表征向量赋值;构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度。有效提升了领域文本相似度计算的准确度。
技术领域
本发明属于图数据处理领域,尤其涉及一种基于标签图转化的领域文本相似度计算方法及系统。
背景技术
在自然语言处理(Natural Language Processing,NLP)中,经常会涉及度量两个文本相似度问题,用于判定两篇文章是否相似。比如在对话系统中,系统会准备一些经典问题和对应答案,当用户的问题和经典问题很相似时,系统直接返回准备好的答案。又如在各类搜索引擎类似文章推荐、购物网站类似商品推荐等,均是采用了文本相似度计算技术。总之,文本相似度计算是自然语言处理领域研究中的基础问题,在信息检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问答、短文本评分、机器翻译、文本摘要等场景中有广泛应用。因此当前对于文本相似度度量的方法也较多和成熟,比如传统相似度的计算采取编辑距离算法、余弦法、SimHash法等。
当前的文本相似度计算方法,在应用于专业领域文本相似度计算时仍有不足。领域文本是一种增强了文本表示能力特殊文本,有很强的特殊性、专业性、严谨性、冗余性等性质,通常是一种长文本,包含有多个要素,且要素之间存在复杂的关联关系,蕴含了大量知识。而现有的文本相似度计算方法缺乏领域知识和概念层次知识的指导,存在长距离依赖问题,难以实现对领域长文本表征,因此文本相似度计算效果不佳,有必要考虑专业领域知识对相关技术的不同需求。
在领域文本相似度计算方法中,知识图谱是一种结构化的知识表示方法,作为一种标签图,它由大量三元组(头实体,关系,尾实体)构成,表示为(h,r;t),其中关系r建模两个实体之间的关系,能充分表示领域文本中蕴含的知识,是在编码许多领域中具有关系结构的自然表示。因此人们当前研究较多,提出了大量算法,例如图卷积,可以对无标签图进行特征提取,以解决各种下游问题。但是知识图谱和无标签图之间的结构差异,导致无法将先进的无标签图算法应用于知识图谱,并且目前没有一种能既保存知识图谱结构和语义又能将知识图谱转换为无标签图的方法应于领域文本相似度计算,现有技术有必要改进。
发明内容
本发明所要解决的计算问题是克服现有领域文本相似度计算方法,不能同时保存知识图谱结构及语义信息和将知识图谱转换为无标签图,导致相似度计算效果不佳的问题。
为解决上述问题,本发明提供一种基于标签图转化的领域文本相似度计算方法,其特征在于,包括如下步骤:
S1.从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;
S2.知识图谱表征初始化,获得实体和关系的表征向量;
S3.对知识图谱进行无标签化转换,将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;
S4.无标签化知识图谱节点表征向量赋值;
S5.构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度。
作为优选,步骤S1具体为:使用实体关系联合抽取方法从领域文本中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对领域文本T构建知识图谱G=(V,E)。
作为优选,步骤S2具体为:使用知识图谱表征算法进行表征学习,使用捕捉所述知识图谱的实体和关系语义的自然语言预训练模型或者捕捉所述知识图谱结构信息的平移模型得到所述实体和所述关系的表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111040367.2/2.html,转载请声明来源钻瓜专利网。