[发明专利]一种基于词向量和依存句法的知识图谱构建方法及系统有效
| 申请号: | 202310100517.7 | 申请日: | 2023-02-13 |
| 公开(公告)号: | CN115795061B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 蓝建敏;李思伟;申鑫;池沐霖 | 申请(专利权)人: | 京华信息科技股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06N5/04;G06F40/211 |
| 代理公司: | 广州专理知识产权代理事务所(普通合伙) 44493 | 代理人: | 张凤 |
| 地址: | 510520 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 向量 依存 句法 知识 图谱 构建 方法 系统 | ||
1.一种基于词向量和依存句法的知识图谱构建方法,其特征在于,包括:
获取领域文本数据,对所述领域文本数据进行分句处理,得到多条文本数据,根据依存句法对每条文本数据进行实体关系提取,得到并基于多个三元组,构建初始知识图谱,获取所述初始知识图谱中的实体领域嵌入向量;
基于word2vec技术对每条文本数据进行词向量化处理,得到每条文本数据的词向量,并对所述词向量进行降维处理,得到每条文本数据在预设向量空间的文本数据二维坐标;
获取并基于所述初始知识图谱的领域类型,得到相似知识图谱中未知实体的节点及其对应的节点文本数据,基于所述word2vec技术对所述节点进行向量化处理,得到节点词向量,并对所述节点词向量和所述领域嵌入向量进行加法处理,得到节点向量坐标;
计算所述节点向量坐标到每个文本数据二维坐标的距离,获取距离最小值对应的第一文本数据二维坐标,及所述第一文本数据二维坐标对应的第一文本数据;
提取所述第一文本数据对应的第一三元组,并基于依存句法对所述节点文本数据进行实体关系提取,得到多个节点三元组,依次将所述第一三元组和每个节点三元组进行对比,判断所述第一三元组和每个多个节点三元组中是否存在依存句法关系一致的第一实体词,若是,则保留所述第一实体词,并基于所述第一实体词,将所述相似知识图谱与所述初始知识图谱进行结合,得到知识图谱。
2.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法,其特征在于,基于word2vec技术对每条文本数据进行词向量化处理,得到每条文本数据的词向量,并对所述词向量进行降维处理,得到每条文本数据在预设空间的文本数据二维坐标,具体包括:
对每条文本数据进行数据分词处理,得到每条文本数据对应的词集合;
采用word2vec技术对所述词集合中的每个文本词进行词向量处理,得每个文本词对应的词向量,并对所述词向量进行降维处理,得到每个词向量在预设向量空间中的二维词向量坐标;
基于所述词集合,对每条文本数据进行关键词抽取,得到多个关键词,分别将所述多个关键词对应的二维词向量坐标进行求和,得到每条文本数据在预设空间的文本数据二维坐标。
3.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法,其特征在于,根据依存句法对每条文本数据进行实体关系提取,得到并基于多个三元组,构建初始知识图谱,具体包括:
基于依存句法对所述每条文本数据进行数据预处理,其中,所述数据预处理包括分词、词性标注和实体识别;
根据识别出来的实体及所述实体对应的词性,获取每条文本数据中实体之间的依存关系,并基于所述实体和实体之间的依存关系,得到多个初始三元组;
按预设规则对所述多个初始三元组进行筛选,以使去除所述多个初始三元组中的低质量三元组,得到多个三元组;
将所述多个三元组存储到Neo4j数据库中,并基于所述Neo4j数据库构建初始知识图谱。
4.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法,其特征在于,获取并基于所述初始知识图谱的领域类型,得到相似知识图谱中未知实体的节点及其对应的节点文本数据,具体包括:
获取所述初始知识图谱中实体的领域类型,根据所述领域类型,获取相同领域类型的推理知识数据,基于推理知识数据,构建推理知识图谱,获取所述推理知识图谱中的任一节点,并将所述任一节点作为未知实体的节点,并获取所述节点对应的节点文本数据。
5.如权利要求1所述的一种基于词向量和依存句法的知识图谱构建方法,其特征在于,计算所述节点向量坐标到每个文本数据二维坐标的距离,获取距离最小值对应的第一文本数据二维坐标,及所述第一文本数据二维坐标对应的第一文本数据;具体包括:
根据预设的距离计算公式计算节点向量坐标与每个文本数据二维坐标的距离,得到多个距离值,对所有距离值进行排序,获取所有距离值中的距离最小值;
根据所述距离最小值,获取对应的第一文本数据二维坐标,并根据所述第一文本数据二维坐标,获取对应的第一文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京华信息科技股份有限公司,未经京华信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310100517.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电池阶段式充电电路
- 下一篇:一种油井建立温度场开采稠油装置及方法





