[发明专利]一种基于XLNet和Longformer的集体实体消歧方法在审
申请号: | 202310333471.3 | 申请日: | 2023-03-30 |
公开(公告)号: | CN116415572A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 钟兆前;车超;杨思雨 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/242;G06N3/0455 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 盖小静 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xlnet longformer 集体 实体 方法 | ||
本发明公开了一种基于XLNet和Longformer的集体实体消歧方法,包括生成候选实体步骤:对于给定的一个提及,从知识库中生成包含若干个候选实体的候选实体集,以此来控制候选实体的数量。获取消歧序列步骤:将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列;执行序列消歧步骤:将消歧序列中的提及依次解析得到对应的目标实体。本发明基于XLNet和Longformer构建了一个集体实体消歧模型,将实体消歧视为序列决策任务,同时结合局部特征和全局一致性,并利用已消歧实体所包含的丰富知识实现集体实体消歧,实现了更高的性能和更快的推理速度。
技术领域
本发明属于自然语言处理技术领域,具体涉及到一种基于XLNet和Longformer的集体实体消歧方法。
背景技术
随着信息技术的飞速发展,网络文本数量激增,大量的数据以非结构化的自然语言形式呈现在网络上。但是这些文本资源具有高度的歧义性,尤其是一些高频使用的词,会出现一词多义和一义多词的问题。面对包含海量信息的各类网络文本,如何利用计算机技术消除其中广泛存在的歧义,成为至关重要问题。实体消歧通过将文本中的提及链接到知识库中对应的实体来消除同名实体可能引起的混淆和误解。
传统实体消歧方法大多为局部法,即利用提及周围的上下文信息单独地为每个提及进行消歧,而忽略了同一文档中所有实体的主题一致性。集体实体消歧则是在整个文本集合中同时解决所有实体的歧义问题,可以跨越文本边界,同时考虑多篇文本中出现的相同或类似实体。相比于局部实体消歧,集体实体消歧更加困难,因为它需要考虑多个文本中实体的关系。例如,一个人物可能在不同的新闻报道中以不同的称呼出现。因此,集体实体消歧需要对多个文本进行联合消歧,以识别这些不同称呼所表示的同一实体。在新闻数据上,集体实体消歧可以应用于舆情分析、事件检测、新闻推荐等多个方面。
集体实体消歧方法通过引入一个全局项(协同策略),考虑文档内所有提及之间的一致性,对所有提及进行联合建模,能够获得更全面的语义信息。基于图的方法、基于Pair-Linking的方法和基于深度学习的方法都是常用全局实体消歧方法,基于图的方法是通过构建一个图模型,节点由所有提及的候选实体构成,边由提及之间的关系构成,然后在图上执行实体消歧算法,为所有提及选择一组可能性最高的实体组合作为目标实体集合。该方法虽然准确率较高,但也存在一定的缺陷:若是在包含大量提及的长文档中,基于图的联合推理机制导致计算量极大,很难与局部方法结合起来,泛化能力较低。现有的全局实体消歧方法基于这样的假设:文档中的所有提及都是高度相关的;然而这一假设在拥有多个主题的长文档中并不一定成立,而且计算复杂度过高;Pair-Linking方法是一种基于局部实体对匹配的方法,其目的是减少全局实体消歧方法中计算量大的问题。这种方法需要对所有可能的实体对进行比较,因此计算复杂度随着实体数量的增加呈指数级增长,这对于大规模实体链接任务来说是不可行的。基于深度学习的方法,通过对局部和全局信息进行联合编码,可以提高全局实体消歧的效率。然而,关注全文档信息可能会引入噪声,提高计算成本。
目前主流的集体实体消歧模型存在以下问题:一是在执行集体实体消歧时不考虑消歧顺序,直接按照提及出现的顺序执行消歧,极易造成错误传播。二是忽略了已消歧实体中包含的丰富知识。三是传统的集体实体消歧方法由于输入长度限制而无法处理超长文本,只能对文本进行拆分或者截断,无法完整利用全局信息。
发明内容
为提高局部特征和全局特征一致性,本发明提供了一种基于XLNet和Longformer的集体实体消歧方法,提高了现有集体实体消歧的性能。
为实现上述目的,本申请的技术方案为:一种基于XLNet和Longformer的集体实体消歧方法,包括:
生成候选实体:对于给定的一个提及,从知识库中生成包含若干个候选实体的候选实体集{C1,C2,...,Ck},以此来控制候选实体的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310333471.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矸石连续快速充填方法及充填装置
- 下一篇:自动化冲切设备