[发明专利]模型训练及专利知识图谱补全方法、装置及存储介质有效
申请号: | 202210738354.0 | 申请日: | 2022-06-28 |
公开(公告)号: | CN114817576B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 杜军平;王宇晖;邵蓥侠;薛哲;李昂 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 专利 知识 图谱 方法 装置 存储 介质 | ||
本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质,该方法包括:获取包含目标补全类型实体的训练专利文本集合;识别并抽取每个训练专利文本中的所有实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;若专利文本与实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;若非一一对应关系,则使用Softmax函数来归一化分类标签,交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种模型训练及专利知识图谱补全方法、装置及存储介质。
背景技术
专利作为研究成果与技术创新的最主要的信息载体与知识来源,是知识产权分析的主要对象。随着科学技术的快速发展与技术迭代速度的加快,专利的数量也爆炸性增长。对以专利为主的知识产权资源进行分析和挖掘,从大量专利数据中挖掘到技术概念、技术的应用领域等信息,进而掌握技术的发展状况与趋势,有助于企业识别技术机会、抢占市场先机、调整权利要求提高授权机会,提升企业核心竞争力。
专利知识图谱,是基于专利资源库将非结构化的专利文本数据转化为 “头实体-关系-尾实体”或“实体-关系-实体”的三元组形式的结构化表达方式,有效组织专利中的高密度技术信息,增强对专利间深层语义关系的挖掘,寻找专利的技术特征及发展规律。
专利知识图谱包括申请人信息、科技概念、应用方向等实体以及实体间的相互关联关系。实体间的相互关联关系通常包括申请人实体间的关系,科技概念实体间的关系,应用方向实体间的关系等。
但由于专利写作格式和申请人撰写思路的差异,并非所有专利都会明确表明领域、应用方向等实体,导致专利知识图谱中关键实体的缺失。现有技术利用专利知识图谱的图结构信息,生成三元组的特征表示,将所有可能的“头实体-关系-尾实体”组合形成候选三元组几何,计算每个三元组的得分,根据得分获得补全的实体,但此方法未利用到专利文本包含的语义信息,可能导致错误的实体或实体关系带来的异常信息在补全过程中扩散。
为此,如何提供一种准确、高效的专利知识图谱补全方法或装置,是一个亟待解决的问题。
发明内容
鉴于此,本发明实施例提供了一种模型训练及专利知识图谱补全方法、装置及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种专利知识图谱补全模型训练方法,该方法包括以下步骤:
获取包含目标补全类型实体的训练专利文本集合;
依据专利文本与目标补全类型的实体的对应关系,识别并抽取每个训练专利文本中的所有目标补全类型的实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;
将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;
若专利文本与目标补全类型的实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;
若专利文本与目标补全类型的实体非一一对应关系,则使用Softmax函数来归一化分类标签,使用交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。
在本发明的一些实施例中,所述专利文本与目标补全类型的实体为一一对应关系的情况下,所述实体的类型包括应用方向实体;所述专利文本与目标补全类型的实体非一一对应关系的情况下,所述实体的类型包括领域实体。
在本发明的一些实施例中,在所述专利文本与目标补全类型的实体非一一对应关系的情况下,该方法还包括使用正则表达式和同义词词表进行同义词融合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210738354.0/2.html,转载请声明来源钻瓜专利网。