[发明专利]基于知识图谱的军工科研生产数据相似性判别方法及系统在审

专利信息
申请号: 202111221214.8 申请日: 2021-10-20
公开(公告)号: CN113934864A 公开(公告)日: 2022-01-14
发明(设计)人: 姚晗;吴美熹;李占;徐雅丽;魏双剑;王建峰;谭艾迪;王美慧;米思坤 申请(专利权)人: 中国船舶工业综合技术经济研究院
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F40/30
代理公司: 中国船舶专利中心 11026 代理人: 温振宁
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 知识 图谱 军工 科研 生产 数据 相似性 判别 方法 系统
【说明书】:

发明实施例提供一种基于知识图谱的军工科研生产数据相似性判别方法及系统,包括构建本体体系,包括构建产生军工科研生产数据的本体以及本体之间的第一关联关系,其中,本体包括多种元素;构建知识图谱,包括基于本体体系,从原始文件中提取实体以及每个原始文件中所包含实体之间的第二关联关系,并在进行实体对齐和关联关系推理后,生成原始文件对应的知识图谱,其中,实体为本体的多种元素中的至少一种;构建知识子图,包括基于知识图谱,抽取获得待判别文件中每个待判别文件的实体的数量信息和第二关联关系的数量信息,确定每个待判别文件的知识子图;基于每个待判别文件的知识子图,判别待判别文件的相似性。

技术领域

本发明涉及数据处理领域,特别涉及一种基于知识图谱的军工科研生产数据相似性判别方法及系统。

背景技术

在长期的军工科研生产过程中积累了大量的数据文件,在开展数据处理与统计分析等相关工作时,面临着数据文件重复的问题,即,多个文件描述角度不同、分析层次不同、制作单位不同,但本质上描述的内容是相同的。这种情况在开展数据处理时,需要进行归并整合,进行统计分析时应按照一项而不是多项进行统计。

当前相似文件判重问题主要采用人工的方式进行,由有经验的资深专家判断多份文件本质内容是否相同。这种方法耗时费力且能处理的数据量有限,难以满足数字化智能化发展浪潮下大规模非结构化数据快速处理的需求。

从技术角度,一般采用文字重复率计算、IT-IDF关键词计算、文本向量余弦相似度计算等方法。文字重复率计算方法是指单纯统计多个数据文件之间重复文字占总文字的比例,比例越高则相似性越强;TF-IDF关键词计算方法是以词语作为基本单元,计算关键词出现的频次以及在所有文档中出现的频次,统计数据文件中的主题词,主题词越接近则相似性越强;文本向量余弦相似度计算方法是指构建文本向量,计算文本向量之间的余弦相似度,余弦相似度越高,则相似性越强。

现有技术仅通过文本频次及结构作为相似性判断依据,缺乏针对数据文件的语义分析,导致相似性判别准确率难以大幅提升。部分描述方式不同但本质内容相似的内容完全无法识别。

发明内容

本发明实施例提供了一种基于领域构建本体体系,进而基于本体体系,采用知识图谱构建知识图谱,进而针对需要判别相似度的数据文件,结构知识图谱构建知识子图,并计算知识子图中实体和关联关系重复数量,计算数据文件相似度的基于知识图谱的军工科研生产数据相似性判别方法及系统。

本发明实施例提供一种基于知识图谱的军工科研生产数据相似性判别方法,包括:

构建本体体系,包括构建产生军工科研生产数据的本体以及本体之间的第一关联关系,其中,所述本体包括多种元素;

构建知识图谱,包括基于所述本体体系,从原始文件中提取实体以及每个原始文件中所包含实体之间的第二关联关系,并在进行实体对齐和关联关系推理后,生成所述原始文件对应的知识图谱,其中,所述实体为所述本体的多种元素中的至少一种;

构建知识子图,包括基于所述知识图谱,抽取获得待判别文件中每个待判别文件的实体的数量信息和第二关联关系的数量信息,确定所述每个待判别文件的知识子图;

基于所述每个待判别文件的知识子图,判别所述待判别文件的相似性。

在本发明的一些实施例中,所述本体包括机构、装备、人员、任务、时间和地点中的至少一种;

所述第一关联关系为所述本体中多个元素中任意两个元素所构成的关联关系,或同一元素所对应的不同实体之间的关联关系。

在本发明的一些实施例中,所述的基于知识图谱的军工科研生产数据相似性判别方法,还包括:

基于预设间隔时长,对用以构建所述本体体系的本体以及本体之间的第一关联关系进行更新。

在本发明的一些实施例中,每个所述第二关联关系均包括两个实体。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶工业综合技术经济研究院,未经中国船舶工业综合技术经济研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111221214.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top