[发明专利]实体链接方法及装置在审

申请号：	202110326779.6	申请日：	2021-03-26
公开（公告）号：	CN112989808A	公开（公告）日：	2021-06-18
发明（设计）人：	李涓子;祝方韦;刘丁枭;侯磊;张鹏;唐杰;许斌	申请（专利权）人：	清华大学
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/289;G06F40/295;G06F40/30;G06K9/62;G06F16/36
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	苗晓静
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体链接方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种实体链接方法及装置，所述实体链接方法包括：基于词典的方式进行实体发现，得到实体提及；基于词和实体的联合表示的方式进行实体链接，得到所述实体提及与知识库中的实体的链接关系；对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式，在增加召回率的同时有效避免了中文分词对实体发现带来的影响，此外，本发明实施例基于词和实体联合表示的方式实现了实体链接，从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法，实现辅助阅读，以及可用协助进行文本预处理。

技术领域

本发明涉及计算机技术领域，具体涉及一种实体链接方法及装置。

背景技术

伴随着大数据时代互联网的发展，人们被大量来源广泛的新闻信息环绕，比如报纸、网络等，其中新闻最常见的载体是文本，文本是最容易获取有价值信息的方式。由于不同来源产生的新闻信息方式各种各样，新闻文本的格式和蕴含的信息也往往杂乱无章，同时产生新闻信息的数量也极其庞大，完全依赖人工实现中文新闻事件的检测是几乎不可能的。因此，需要借助于计算机进行文本的语义理解和分析，进而提炼出有效信息。

发明内容

针对现有技术中存在的问题，本发明实施例提出一种实体链接方法及装置。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种实体链接方法，包括：

基于词典的方式进行实体发现，得到实体提及；

基于词和实体的联合表示的方式进行实体链接，得到所述实体提及与知识库中的实体的链接关系；

对所述链接关系进行减枝处理。

进一步地，基于词典的方式进行实体发现，得到实体提及，包括：

构建锚文本词典；

基于所述锚文本词典，采用实体提及匹配算法，识别所述文档中的实体提及。

进一步地，构建锚文本词典，包括：

从所述知识库中提取实体，以及提取与所述实体对应的锚文本；

在提取得到的锚文本m中，应用以下过滤规则进行过滤：

去除掉length(m)≤length的锚文本；

去除掉link_prob(m)≤prob的锚文本；

去除掉count(m)≤count的锚文本；

根据过滤之后得到的锚文本，建立实体与锚文本之间的对应关系，构建锚文本词典；

其中，length、prob、count的数值预先设定；length(m)是指锚文本m的长度，link_prob(m)是指锚文本m的先验概率，锚文本m的先验概率是指锚文本m作为实体提及在文档中出现的概率；link_prob(m)＝freq(m)/count(m)，其中，freq(m)是m作为锚文本出现的次数，count(m)是m在语料库中的所有出现次数。

进一步地，基于所述锚文本词典，采用实体提及匹配算法，识别所述文档中的实体提及，包括：

利用Aho-Corasick算法，将所述文档在锚文本词典里的文本片段识别出来；

对于识别结果，若存在冲突现象：一个实体提及m1嵌套在另一个实体提及m2中，或，一个实体提及m1和另一个实体提及m2相互重叠，则根据下面方式进行冲突解决：

对于长度不同的m1和m2，如果length(m1)length(m2)，则保留m1，反之，保留m2；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110326779.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]实体链接方法及装置在审

专利文献下载