[发明专利]基于知识图谱的安全知识自助查询系统的构建方法及装置在审
申请号: | 202110725884.7 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113312501A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 苏成;宋建炜;邓逸川 | 申请(专利权)人: | 中新国际联合研究院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06Q50/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李盛洪 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 安全 自助 查询 系统 构建 方法 装置 | ||
1.一种基于知识图谱的安全知识自助查询系统的构建方法,应用于配置智能移动终端,其特征在于,所述自助查询系统的构建方法包括以下步骤:
S1、收集施工安全知识资料,基于安全知识资料应用数据标注软件构建用于实体抽取和关系抽取的语料库;
S2、调用BERT-BiLSTM-CRF算法进行施工安全知识实体抽取;
S3、调用BERT-CNN算法进行施工安全知识关系抽取;
S4、将实体和关系数据处理为“实体→关系→实体”类型的三元组数据,并将三元组存贮进图数据库;
S5、重复步骤S2至S4,完成知识图谱的构建;
S6、基于自然语言处理与朴素贝叶斯分类算法生成Cypher查询语句,构建安全知识自助查询端;
S7、将安全知识图谱及自助查询端配置到移动智能终端构建自助查询系统。
2.根据权利要求1所述的基于知识图谱的安全知识自助查询系统的构建方法,其特征在于,所述步骤S2中BERT-BiLSTM-CRF算法包括BERT模型、BiLSTM模型和CRF模型,待处理文本依次通过上述三个模型,实现实体的抽取,所述待处理文本来自语料库,实体抽取过程如下:
S21、待处理文本通过BERT模型输出对应的动态字向量:
其中,BERT模型是基于Transform编码器的预训练语言模型,Transform编码器由自注意力机制部分、求和与归一化部分和前馈神经网络部分构成,Transform编码器最核心的自注意力机制可表示为:
其中,矩阵Q、K和V为输入字向量;dk为输入向量维度,QKT表示计算输入字向量之间的语义关系,softmax(·)表示归一化函数;
S2.2、所述动态字向量通过BiLSTM模型输出对应的字标签得分向量:
其中,BiLSTM模型由两个LSTM模型组成,LSTM模型的计算过程如下:
其中,σ为sigmoid激活函数,x是词嵌入向量,i、f、o分别表示输入门、遗忘门和输出门;ω为不同状态时各控制门的权重矩阵,表示输入门的权重矩阵,表示遗忘门的权重矩阵,表示输出门的权重矩阵,表示备选值层的权重矩阵;b为不同状态时各控制门的偏值向量,表示输入门的偏置向量,表示遗忘门的偏置向量,表示输出门的偏置向量,是备选值层的偏置向量;h是输出,ht是t时刻的输出,ht-1是t-1时刻的输出;表示旧时刻状态到新时刻状态的转移矩阵,ct表示t时刻的记忆单元的状态;tanh(·)为调值函数,其输出值位于区间(-1,1)内;
S2.3、所述字标签得分向量通过CRF模型输出最优标签序列:
其中,CRF模型是马尔可夫随机场,CRF模型表示为:
其中,z和y分别表示输入句子和输出标签序列;表示第j个字被判别为标签yj的概率,表示所有可能转换为标签yj的概率,n为序列长度;
对于每一种可能的标签组合情况,经过归一化处理后得到所求的条件概率,计算过程如下式所示:
其中,ytrue表示真实标签值,P(y|x)表示x的预测标签为y的概率;
对P(y|x)取对数似然函数,似然函数计算过程如下式所示:
将概率最大的一组序列作为最优标签序列输出,可表示为:
对最优标签序列中的各个实体进行提取分类,从而完成实体抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中新国际联合研究院,未经中新国际联合研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110725884.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:配备常压刀盘的泥水敞开式双模盾构机
- 下一篇:加热烘烤器阶梯性加热控制方法