[发明专利]一种开放性知识图谱挖掘方法及系统在审
申请号: | 202110649339.4 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113486189A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 牟昊;何宇轩;徐亚波;李旭日 | 申请(专利权)人: | 广州数说故事信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510627 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 性知识 图谱 挖掘 方法 系统 | ||
本发明公开了一种开放性知识图谱挖掘方法及系统,方法包括:输入待分析的自然语言文本;从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;将第一知识三元组和第二知识三元组进行知识融合将融合后的结果存储到图数据库中,得到知识图谱。本发明对实体列表信息抽取更全面,同时提高了知识准确率和召回率。
技术领域
本发明涉及计算机文本处理技术领域,更具体地,涉及一种开放性知识图谱挖掘方法及系统。
背景技术
知识图谱是通用的知识可视化和存储工具。知识图谱可通过结构化、半结构化信息生成,但存在结构化和半结构化的信息相对较少,且更新较慢的问题。知识图谱亦可通过解析非结构化的文本信息生成,但将存在知识准确率和召回率相关的问题。
现有技术中,公开号为CN111061832A的中国发明专利公开了一种基于开放域信息抽取的人物行为抽取方法,包括步骤:a、使用CoreNLP工具的Open IE功能生成三元组,三元组对应有元素,元素包括主语、谓语、宾语、时间、地点、间接宾语和其他;其中,t的下标代表三元组的分组号,t的上标代表三元组在组内的序号;b、将表示同一元素的三元组聚合到一起形成分组;c、从分组后的三元组中获取最佳三元组代表其描述的元素;d、将剩余的三元组进行二次分组;e、将三元组的宾语进行分类;f、构建行为链。该方案仅限于使人物行为的抽取,仅利用了开放域的抽取,信息抽取不够全面。
发明内容
本发明为克服现有技术中通过解析非结构化的文本信息生成知识图谱的方法存在知识准确率和召回率低的相关的问题,提供一种开放性知识图谱挖掘方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种开放性知识图谱挖掘方法,包括以下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
进一步的,所述实体列表中每个实体均包括有实体名称和实体类型。
进一步的,开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到,标注数据由文本、文本中的实体及其类型组成。
进一步的,开放域关系抽取以实体列表中的实体作为输入,分别提取出各个实体的在原文中的知识三元组,当实体在原文句子中作主语时,提取出相关的谓语和宾语,组成知识三元组;当实体在原文句子中作宾语时,提取出相关的主语和谓语,组成知识三元组。
进一步的,第一知识三元组包括:主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度;当主语或宾语存在于实体列表中时,取实体列表中对应的实体类型;否则,将实体类型暂定为其他。
进一步的,限定域关系抽取,需事先定义指定关系列表,指定关系列表由若干个指定关系组成,每个指定关系需定义实体对中,起始实体的类型、结束实体的类型和指定关系名称。
进一步的,限定域关系抽取中,提取出的实体对同时满足的条件包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数说故事信息科技有限公司,未经广州数说故事信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649339.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:小叶苦丁茶成套加工装置
- 下一篇:电子源