[发明专利]实体链接方法及装置在审
申请号: | 202110326779.6 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112989808A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李涓子;祝方韦;刘丁枭;侯磊;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/295;G06F40/30;G06K9/62;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 方法 装置 | ||
本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。
技术领域
本发明涉及计算机技术领域,具体涉及一种实体链接方法及装置。
背景技术
伴随着大数据时代互联网的发展,人们被大量来源广泛的新闻信息环绕,比如报纸、网络等,其中新闻最常见的载体是文本,文本是最容易获取有价值信息的方式。由于不同来源产生的新闻信息方式各种各样,新闻文本的格式和蕴含的信息也往往杂乱无章,同时产生新闻信息的数量也极其庞大,完全依赖人工实现中文新闻事件的检测是几乎不可能的。因此,需要借助于计算机进行文本的语义理解和分析,进而提炼出有效信息。
发明内容
针对现有技术中存在的问题,本发明实施例提出一种实体链接方法及装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种实体链接方法,包括:
基于词典的方式进行实体发现,得到实体提及;
基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;
对所述链接关系进行减枝处理。
进一步地,基于词典的方式进行实体发现,得到实体提及,包括:
构建锚文本词典;
基于所述锚文本词典,采用实体提及匹配算法,识别所述文档中的实体提及。
进一步地,构建锚文本词典,包括:
从所述知识库中提取实体,以及提取与所述实体对应的锚文本;
在提取得到的锚文本m中,应用以下过滤规则进行过滤:
去除掉length(m)≤length的锚文本;
去除掉link_prob(m)≤prob的锚文本;
去除掉count(m)≤count的锚文本;
根据过滤之后得到的锚文本,建立实体与锚文本之间的对应关系,构建锚文本词典;
其中,length、prob、count的数值预先设定;length(m)是指锚文本m的长度,link_prob(m)是指锚文本m的先验概率,锚文本m的先验概率是指锚文本m作为实体提及在文档中出现的概率;link_prob(m)=freq(m)/count(m),其中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中的所有出现次数。
进一步地,基于所述锚文本词典,采用实体提及匹配算法,识别所述文档中的实体提及,包括:
利用Aho-Corasick算法,将所述文档在锚文本词典里的文本片段识别出来;
对于识别结果,若存在冲突现象:一个实体提及m1嵌套在另一个实体提及m2中,或,一个实体提及m1和另一个实体提及m2相互重叠,则根据下面方式进行冲突解决:
对于长度不同的m1和m2,如果length(m1)length(m2),则保留m1,反之,保留m2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110326779.6/2.html,转载请声明来源钻瓜专利网。