[发明专利]模型训练及专利知识图谱补全方法、装置及存储介质有效

专利信息
申请号: 202210738354.0 申请日: 2022-06-28
公开(公告)号: CN114817576B 公开(公告)日: 2022-11-18
发明(设计)人: 杜军平;王宇晖;邵蓥侠;薛哲;李昂 申请(专利权)人: 北京邮电大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/295;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京金咨知识产权代理有限公司 11612 代理人: 宋教花
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模型 训练 专利 知识 图谱 方法 装置 存储 介质
【说明书】:

本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质,该方法包括:获取包含目标补全类型实体的训练专利文本集合;识别并抽取每个训练专利文本中的所有实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;若专利文本与实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;若非一一对应关系,则使用Softmax函数来归一化分类标签,交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种模型训练及专利知识图谱补全方法、装置及存储介质。

背景技术

专利作为研究成果与技术创新的最主要的信息载体与知识来源,是知识产权分析的主要对象。随着科学技术的快速发展与技术迭代速度的加快,专利的数量也爆炸性增长。对以专利为主的知识产权资源进行分析和挖掘,从大量专利数据中挖掘到技术概念、技术的应用领域等信息,进而掌握技术的发展状况与趋势,有助于企业识别技术机会、抢占市场先机、调整权利要求提高授权机会,提升企业核心竞争力。

专利知识图谱,是基于专利资源库将非结构化的专利文本数据转化为 “头实体-关系-尾实体”或“实体-关系-实体”的三元组形式的结构化表达方式,有效组织专利中的高密度技术信息,增强对专利间深层语义关系的挖掘,寻找专利的技术特征及发展规律。

专利知识图谱包括申请人信息、科技概念、应用方向等实体以及实体间的相互关联关系。实体间的相互关联关系通常包括申请人实体间的关系,科技概念实体间的关系,应用方向实体间的关系等。

但由于专利写作格式和申请人撰写思路的差异,并非所有专利都会明确表明领域、应用方向等实体,导致专利知识图谱中关键实体的缺失。现有技术利用专利知识图谱的图结构信息,生成三元组的特征表示,将所有可能的“头实体-关系-尾实体”组合形成候选三元组几何,计算每个三元组的得分,根据得分获得补全的实体,但此方法未利用到专利文本包含的语义信息,可能导致错误的实体或实体关系带来的异常信息在补全过程中扩散。

为此,如何提供一种准确、高效的专利知识图谱补全方法或装置,是一个亟待解决的问题。

发明内容

鉴于此,本发明实施例提供了一种模型训练及专利知识图谱补全方法、装置及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种专利知识图谱补全模型训练方法,该方法包括以下步骤:

获取包含目标补全类型实体的训练专利文本集合;

依据专利文本与目标补全类型的实体的对应关系,识别并抽取每个训练专利文本中的所有目标补全类型的实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;

将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;

若专利文本与目标补全类型的实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;

若专利文本与目标补全类型的实体非一一对应关系,则使用Softmax函数来归一化分类标签,使用交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。

在本发明的一些实施例中,所述专利文本与目标补全类型的实体为一一对应关系的情况下,所述实体的类型包括应用方向实体;所述专利文本与目标补全类型的实体非一一对应关系的情况下,所述实体的类型包括领域实体。

在本发明的一些实施例中,在所述专利文本与目标补全类型的实体非一一对应关系的情况下,该方法还包括使用正则表达式和同义词词表进行同义词融合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210738354.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top