[发明专利]一种面向非结构化数据的领域知识抽取方法在审

专利信息
申请号: 202211259591.5 申请日: 2022-10-14
公开(公告)号: CN115510245A 公开(公告)日: 2022-12-23
发明(设计)人: 王儒;孙延劭;华益威;魏竹琴;王国新 申请(专利权)人: 北京理工大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/335;G06F16/35;G06F40/216;G06F40/295;G06N3/04;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 周蜜
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 结构 数据 领域 知识 抽取 方法
【说明书】:

发明公开了一种面向非结构化数据的领域知识抽取方法,该方法为:基于双向长短时记忆神经网络及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别训练两个模型;用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体‑关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体‑关系表,并在neo4j图数据库中建立知识图谱;本发明能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。

技术领域

本发明属于知识抽取技术领域,具体涉及一种面向非结构化数据的领域知识抽取方法。

背景技术

领域知识具有专业性强,知识载体多样,知识体系复杂等特点。在智能制造的背景下,产品的研发与制造对领域知识的需求越来越迫切,建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率,领域知识图谱是实现这一目标的关键。知识图谱本质上是一种大规模的语义网络,旨在以实体来描述现实世界中的概念和事件,以边代表它们之间的相互关系。知识图谱的核心是由实体、属性和关系组成的三元组,在结构上可以划分为模式层和数据层,其中模式层是由概念本体和关系构成,用于描述知识图谱的结构,数据层则是在模式层的指导下通过具体数据构建的实例化的知识图谱。

领域知识图谱是管理领域知识与关系的重要手段,通过领域知识图谱可以实现对领域内的各类知识进行统一管理。因此知识图谱的构建过程是重中之重。首先需明确构建知识图谱的数据来源,在知识图谱构建的过程中,数据的来源分为结构化、半结构化、非结构化,其中结构化、半结构化数据的抽取已经较为成熟,非结构化数据的抽取仍然在发展阶段。在实际应用中,知识图谱的构建仍然以手动为主,自动构建方面也仍以结构化、半结构化为主,工艺领域需要一种针对非结构化数据的知识自动抽取方法,这将有助于实现对多源异构的复杂领域知识的管理,便于领域的设计与决策。

从非结构化数据抽取知识的方法可以分解为实体抽取和关系抽取两部分。

在实体抽取方面,随着自然语言处理(NLP)技术的发展,发展出多种基于深度学习的实体识别算法,例如循环神经网络RNN,这是一类处理序列数据的神经网络,适合处理以文本数据为主的非结构化数据,在此基础上为了避免维度爆炸的问题发展出了长短时记忆神经网络LSTM,为了加速训练又发展出了双向长短时神经网络BiLSTM,为了进一步提高抽取精度,加入了条件随机场CRF来定义损失函数。

在关系抽取方面,目前有pipeline方法、end2end等方法,前者按句子先用实体抽取器识别出其中的各个实体,然后对抽取出来的实体每两个进行组合在加上原文本句子作为关系识别器的输入进行两输入实体间的关系识别;后者也称为端到端的关系抽取,通过对每个句子做处理,直接抽取得到三元组。随着深度学习的发展,关系抽取领域发展出基于卷积神经网络CNN、基于注意力机制的关系抽取模型。

但是,上面提出的关于实体抽取、关系抽取的方法目前广泛用于通用知识领域,通用知识具有覆盖面广、数据量大等特点,因此通用领域的知识图谱通常采用自底向上进行构建,从大量的数据中抽取信息,来构成知识图谱中的实体和关系。领域知识与通用知识不同,领域知识更重视知识的专业性,因此领域知识需要有更加严谨的结构。在构建领域知识图谱时,需要采用自顶向下的方式进行构建,先设计领域知识图谱的模式层,根据模式层来确定哪些信息属于领域知识。然而目前在领域知识图谱的构建方面,仍然以手动构建为主,管理的效率低下,处理的数据也多以结构和半结构化数据为主,面向非结构化数据的知识抽取仍然缺少系统化的方法。

发明内容

有鉴于此,本发明提供了一种面向非结构化数据的领域知识抽取方法,能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。

本发明是通过下述技术方案实现的:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211259591.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top