[发明专利]实体链接方法及装置在审
申请号: | 202110326779.6 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112989808A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李涓子;祝方韦;刘丁枭;侯磊;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/295;G06F40/30;G06K9/62;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 方法 装置 | ||
1.一种实体链接方法,其特征在于,包括:
基于词典的方式进行实体发现,得到实体提及;
基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;
对所述链接关系进行减枝处理。
2.根据权利要求1所述的实体链接方法,其特征在于,基于词典的方式进行实体发现,得到实体提及,包括:
构建锚文本词典;
基于所述锚文本词典,采用实体提及匹配算法,识别所述文档中的实体提及。
3.根据权利要求2所述的实体链接方法,其特征在于,构建锚文本词典,包括:
从所述知识库中提取实体,以及提取与所述实体对应的锚文本;
在提取得到的锚文本m中,应用以下过滤规则进行过滤:
去除掉length(m)≤length的锚文本;
去除掉link_prob(m)≤prob的锚文本;
去除掉count(m)≤count的锚文本;
根据过滤之后得到的锚文本,建立实体与锚文本之间的对应关系,构建锚文本词典;
其中,length、prob、count的数值预先设定;length(m)是指锚文本m的长度,link_prob(m)是指锚文本m的先验概率,锚文本m的先验概率是指锚文本m作为实体提及在文档中出现的概率;link_prob(m)=freq(m)/count(m),其中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中的所有出现次数。
4.根据权利要求2所述的实体链接方法,其特征在于,基于所述锚文本词典,采用实体提及匹配算法,识别所述文档中的实体提及,包括:
利用Aho-Corasick算法,将所述文档在锚文本词典里的文本片段识别出来;
对于识别结果,若存在冲突现象:一个实体提及m1嵌套在另一个实体提及m2中,或,一个实体提及m1和另一个实体提及m2相互重叠,则根据下面方式进行冲突解决:
对于长度不同的m1和m2,如果length(m1)length(m2),则保留m1,反之,保留m2;
对于长度相同的实体提及,如果link_prob(m1)link_prob(m2),则保留m1,反之,保留m2。
5.根据权利要求1所述的实体链接方法,其特征在于,基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系,包括:
建立词和实体的联合表示模型;
基于所述词和实体的联合表示模型,采用概率实体模型,建立所述实体提及与知识库中的实体的链接关系。
6.根据权利要求5所述的实体链接方法,其特征在于,所述词和实体的联合表示模型包括skip-gram模型、知识库模型和锚文本上下文模型的组合;相应地,建立词和实体的联合表示模型,包括:
建立skip-gram模型,通过预测词的相邻词学习给定文本语料中词的表示;
建立知识库模型,通过预测目标实体相邻的实体来学习实体的表示;
建立锚文本上下文模型,将锚文本替换为相应的实体,预测该实体周围下文的词,将词和实体映射到同一个语义空间中;
在对所述词和实体的联合表示模型进行训练时,所述词和实体的联合表示模型的总目标为最大化三个模型目标函数的线性组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110326779.6/1.html,转载请声明来源钻瓜专利网。