[发明专利]一种面向非结构化数据的领域知识抽取方法在审

专利信息
申请号: 202211259591.5 申请日: 2022-10-14
公开(公告)号: CN115510245A 公开(公告)日: 2022-12-23
发明(设计)人: 王儒;孙延劭;华益威;魏竹琴;王国新 申请(专利权)人: 北京理工大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/335;G06F16/35;G06F40/216;G06F40/295;G06N3/04;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 周蜜
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 结构 数据 领域 知识 抽取 方法
【权利要求书】:

1.一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据;

其特征在于,所述抽取方法的具体步骤如下:

步骤S1,通过对领域知识概念实体与关系梳理进行梳理,建立领域知识图谱模式层;

步骤S2,对非结构化数据进行预处理,得到人工标注后的文本数据;

步骤S3,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别利用相应数据集训练所述实体抽取模型和关系抽取模型;

步骤S4,用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将所述领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体-关系表;

根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体-关系表,根据该实体-关系表在neo4j图数据库中建立知识图谱。

2.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S1的具体步骤如下:

步骤S1-1,根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;

步骤S1-2,根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层。

3.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S2的具体步骤如下:

步骤S2-1,利用文本解析工具,将非结构化数据解析为txt文件;

步骤S2-2,利用Jieba分词工具,对文本文件进行分词;

步骤S2-3,对分词后的文本做去除停用词处理;

步骤S2-4,基于BIO标注法或BIOES标注法对文本数据进行人工标注。

4.如权利要求1-3任一项所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤S3的具体步骤如下:

步骤S3-1,根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;

步骤S3-2,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,利用相应数据集训练该模型;基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;

步骤S3-3,依据精确率、召回率、F1值对实体抽取模型训练效果进行评估;根据精确率对关系抽取模型训练效果进行评估。

5.如权利要求4所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,在步骤S3-2中,建立实体抽取模型时:双向长短时记忆神经网络BiLSTM的BiLSTM层的输出维度与标签种类的数量相同,对每个输入wl,网络会输出其对应标签j的概率值pij,最终获得网络的输出P,即每个输入与每个标签对应的标注概率值;条件随机场CRF计算了条件约束下的标注概率值,设y为预测的标注序列,x为文本输入序列,y′为准确的标注序列,则有

其中,P(y|x)为输出P经过条件随机场约束后的概率值;分数Score可以通过下式进行计算:

其中,ψi(x,y)为特征向量;

训练实体抽取模型时,目标是最大化概率P(y|x),通过对数似然得:

定义损失函数为-log(P(y|x)),通过优化算法对损失函数-log(P(y|x))进行优化即可实现实体抽取模型BiLSTM-CRF的训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211259591.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top