[发明专利]一种基于XLNet和Longformer的集体实体消歧方法在审
申请号: | 202310333471.3 | 申请日: | 2023-03-30 |
公开(公告)号: | CN116415572A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 钟兆前;车超;杨思雨 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/242;G06N3/0455 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 盖小静 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xlnet longformer 集体 实体 方法 | ||
1.一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,包括:
对于给定的一个提及,从知识库中为其生成包含若干个候选实体的候选实体集{C1,C2,...,Ck};
将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列Seq={M1,M2,...,Mn};
将消歧序列Seq={M1,M2,...,Mn}中的所有提及依次解析得到对应的目标实体。
2.根据权利要求1所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,采用基于命名字典方式生成候选实体集;利用维基百科中的信息构建命名字典,包括实体页面、重定向页面和消歧页面。
3.根据权利要求2所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,将实体页面中的标题加入命名字典的“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。
4.根据权利要求2所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,重定向页面包含实体别名和对应的实体页面链接的页面,将重定向页面的标题添加到“标签”中,并将指向的实体添加到“描述”中。
5.根据权利要求2所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,将消歧页面中的标题加入“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。
6.根据权利要求1所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列,具体为:首先使用[CLS]和[SEP]两个标记将提及上下文和候选实体描述进行拼接,作为XLNet的输入文本序列,得到提及上下文-候选实体描述对的表示,并根据该表示获取它们之间的相似度得分;接着,将实体先验概率与相似度得分输入前馈神经网络,得到候选实体的排名得分;依照该排名分数由高到低地选择候选实体对应的提及组成消歧序列Seq={M1,M2,...,Mn}。
7.根据权利要求1所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,将消歧序列Seq={M1,M2,...,Mn}中的所有提及依次解析得到对应的目标实体,具体为:首先对于每个词和实体,将标记嵌入、位置嵌入和类型嵌入求和作为嵌入表示;接着用[MASK]替换所有实体,将单词和实体的嵌入表示输入Longformer;然后按照消歧序列中的顺序,使用softmax函数预测序列中第一个提及的目标实体,并将已消歧实体作为已知知识加入下一轮消歧决策中,重复此步骤,直至序列中所有的提及都链接到对应的目标实体。
8.根据权利要求7所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,
标记嵌入:词和实体嵌入矩阵分别表示为和H为Longformer隐藏层大小,VW和VE分别是单词字典和实体字典的条目数;
位置嵌入:标记在句中的位置,如果一个词或实体由多个词组成,那么它的位置嵌入就表示为对应位置的平均;
类型嵌入:分为单词类型嵌入和实体类型嵌入。
9.根据权利要求1所述一种基于XLNet和Longformer的集体实体消歧方法,其特征在于,采用2018年12月版本的维基百科作为训练词嵌入的语料库,参数设置:学习率为5e-5,隐藏层层数为12,最大位置嵌入为4098,衰减率为0.01,为防止过拟合采用dropout(0.1),优化器为Adam,将Micro-F1作为评判指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310333471.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矸石连续快速充填方法及充填装置
- 下一篇:自动化冲切设备