[发明专利]开放式信息抽取背景下一种基于维基百科的实体语义化方法在审
申请号: | 201711309920.1 | 申请日: | 2017-12-11 |
公开(公告)号: | CN108021682A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 杜友田;卢秋颢;王雪;李雪莲 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06F17/21 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 开放式 信息 抽取 背景 一种 基于 百科 实体 语义 方法 | ||
针对开放式信息抽取结果缺乏清晰语义的特性,本发明提出了一种基于维基百科的实体语义化方法。该方法将知识三元组中的字符串参数映射到外部知识库维基百科中的真实世界实体上,从而实现实体语义化。该研究思路优点有二:开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布,以此特征融合多信息源特征,使方法具备很好的鲁棒性;以基于语义传播的相似性度量代替直接计算相似度,挖掘了维基百科实体之间深层次的关联。
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘、自然语言处理、机器学习,特别涉及开放式信息抽取背景下一种基于维基百科的实体语义化方法。
背景技术
近几年来,信息抽取(Information Extraction,IE)的研究取得了很大进展。典型的信息抽取系统需要预先指定抽取目标,并为每个目标学习相应的抽取器。当目标数量非常巨大或者目标不能提前规定时,典型的方法将失效。因此,典型的信息抽取系统很难从大规模非结构化的网页中发现事实。与之相反,开放式信息抽取(Open IE)系统如Reverb和OLLIE学习词汇无关抽取器来提取事实。这些系统利用语言固有的特征,自然地避免了特定的名词和动词。因此,开放式信息抽取方法通常与领域无关,其系统也不像典型的信息抽取系统那样受到固定模式的约束。
开放式信息抽取系统抽取的数据对于了解文档,发现网络上的新事实和帮助搜索引擎开发问答功能十分重要。这些提取的事实可以被视为被处理文本中最重要的信息或知识。然而,由于开放式信息抽取缺乏一个预定义的本体或抽取目标,其提取的事实不可避免地是模糊的,因此机器难以解释和直接利用。开放式信息抽取系统提取知识三元组的原则是它认为该事实有一些具体的含义,但它并不真正明白这个含义究竟是什么。例如,三元组(Michael Jordan,is an,American scientist)的主语可能是指多个名为“MichaelJordan”的实体,我们需要做的就是将字符串参数映射到正确的维基百科实体“Michael I.Jordan(scientist)”而不是其他实体。
该映射任务有时也被称为实体链接或命名实体消歧。基本上,任务是将文档中的实体名称映射到知识库(例如维基百科)的相应实体。在过去十年里,实体链接任务已有相当丰富的研究进展。Bunescu和Pasca训练了一个消歧SVM内核,并以有监督的方式完成了映射任务。Cucerzan则选择语境上下文极大相似,同时实体类别标签极大相似的实体。
不同于典型的实体链接,本发明尝试将开放式信息抽取得到的三元组中的字符串参数映射到知识库中的实体,实现语义化。开放式信息抽取系统从网页提取(arg1,predicate,arg2)三元组。arg1和arg2是文本字符串,分别指主语和宾语。谓语是指定arg1和arg2之间的具体关系的短语。典型实体链接和面向开放式信息抽取的实体链接的主要区别在于,开放式信息抽取系统从网页中提取数以百万计的知识三元组,从而提供了可在映射任务中利用的大量有用的统计信息。相关研究例如,Meilicke等人使用链接到维基百科实体的页面数来衡量其显著程度,并在所有候选中选择显著性最高的实体。这种方法比较简单,但却得到了鲁棒性很强的结果。Lin等人分别计算每个候选的字符串匹配级别,显著程度得分和上下文匹配程度得分,并将三者的乘积作为每个候选实体的最终得分。他们还引入两个统计特征以提高精度。最近,Dutta等人不仅将开放式知识三元组的主语和宾语映射到相应的实体,而且尝试将关系短语映射到知识库中定义的实体属性上。他们希望通过这样的做法完全语义化知识三元组,从而扩展了目标知识库。
开放式信息抽取能够从大规模非结构化文本中快速准确地抽取知识三元组,但因其缺乏清晰的语义,使得机器难以解释和直接利用。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供开放式信息抽取背景下一种基于维基百科的实体语义化方法,将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而赋予其相应的语义。
为了实现上述目的,本发明采用的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711309920.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卤鹌鹑蛋的制备方法
- 下一篇:护理用带侧拉转盘的振荡仪
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置