[发明专利]一种面向非结构化数据的领域知识抽取方法在审
申请号: | 202211259591.5 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115510245A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 王儒;孙延劭;华益威;魏竹琴;王国新 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/35;G06F40/216;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 周蜜 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 结构 数据 领域 知识 抽取 方法 | ||
本发明公开了一种面向非结构化数据的领域知识抽取方法,该方法为:基于双向长短时记忆神经网络及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别训练两个模型;用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体‑关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体‑关系表,并在neo4j图数据库中建立知识图谱;本发明能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。
技术领域
本发明属于知识抽取技术领域,具体涉及一种面向非结构化数据的领域知识抽取方法。
背景技术
领域知识具有专业性强,知识载体多样,知识体系复杂等特点。在智能制造的背景下,产品的研发与制造对领域知识的需求越来越迫切,建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率,领域知识图谱是实现这一目标的关键。知识图谱本质上是一种大规模的语义网络,旨在以实体来描述现实世界中的概念和事件,以边代表它们之间的相互关系。知识图谱的核心是由实体、属性和关系组成的三元组,在结构上可以划分为模式层和数据层,其中模式层是由概念本体和关系构成,用于描述知识图谱的结构,数据层则是在模式层的指导下通过具体数据构建的实例化的知识图谱。
领域知识图谱是管理领域知识与关系的重要手段,通过领域知识图谱可以实现对领域内的各类知识进行统一管理。因此知识图谱的构建过程是重中之重。首先需明确构建知识图谱的数据来源,在知识图谱构建的过程中,数据的来源分为结构化、半结构化、非结构化,其中结构化、半结构化数据的抽取已经较为成熟,非结构化数据的抽取仍然在发展阶段。在实际应用中,知识图谱的构建仍然以手动为主,自动构建方面也仍以结构化、半结构化为主,工艺领域需要一种针对非结构化数据的知识自动抽取方法,这将有助于实现对多源异构的复杂领域知识的管理,便于领域的设计与决策。
从非结构化数据抽取知识的方法可以分解为实体抽取和关系抽取两部分。
在实体抽取方面,随着自然语言处理(NLP)技术的发展,发展出多种基于深度学习的实体识别算法,例如循环神经网络RNN,这是一类处理序列数据的神经网络,适合处理以文本数据为主的非结构化数据,在此基础上为了避免维度爆炸的问题发展出了长短时记忆神经网络LSTM,为了加速训练又发展出了双向长短时神经网络BiLSTM,为了进一步提高抽取精度,加入了条件随机场CRF来定义损失函数。
在关系抽取方面,目前有pipeline方法、end2end等方法,前者按句子先用实体抽取器识别出其中的各个实体,然后对抽取出来的实体每两个进行组合在加上原文本句子作为关系识别器的输入进行两输入实体间的关系识别;后者也称为端到端的关系抽取,通过对每个句子做处理,直接抽取得到三元组。随着深度学习的发展,关系抽取领域发展出基于卷积神经网络CNN、基于注意力机制的关系抽取模型。
但是,上面提出的关于实体抽取、关系抽取的方法目前广泛用于通用知识领域,通用知识具有覆盖面广、数据量大等特点,因此通用领域的知识图谱通常采用自底向上进行构建,从大量的数据中抽取信息,来构成知识图谱中的实体和关系。领域知识与通用知识不同,领域知识更重视知识的专业性,因此领域知识需要有更加严谨的结构。在构建领域知识图谱时,需要采用自顶向下的方式进行构建,先设计领域知识图谱的模式层,根据模式层来确定哪些信息属于领域知识。然而目前在领域知识图谱的构建方面,仍然以手动构建为主,管理的效率低下,处理的数据也多以结构和半结构化数据为主,面向非结构化数据的知识抽取仍然缺少系统化的方法。
发明内容
有鉴于此,本发明提供了一种面向非结构化数据的领域知识抽取方法,能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。
本发明是通过下述技术方案实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211259591.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置