[发明专利]命名实体对齐方法、装置、电子设备及可读存储介质在审

专利信息
申请号: 202010564906.1 申请日: 2020-06-19
公开(公告)号: CN111738005A 公开(公告)日: 2020-10-02
发明(设计)人: 阮晓雯;邓攀;徐亮;肖京 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06K9/62;G06N3/04;G06N3/08
代理公司: 深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人: 高杰;于志光
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 命名 实体 对齐 方法 装置 电子设备 可读 存储 介质
【说明书】:

发明涉及一种大数据技术,揭露了一种命名实体对齐方法,包括:对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;对所述测试命名实体集进行抽样处理,得到测试命名实体子集;利用每个测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合;根据所述命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果。本发明还涉及一种区块链技术,用于模型训练的数据可存储于区块链中。本发明还提出一种命名实体对齐装置、电子设备以及一种计算机可读存储介质。本发明可以提高命名实体对齐的准确率。

技术领域

本发明涉及大数据领域,尤其涉及一种命名实体对齐的方法、装置、电子设备及可读存储介质。

背景技术

随着大数据时代的来临,如何高效地获取、处理其中的知识是一个重要的研究议题。自然语言处理领域中的命名实体对齐研究旨在将同一概念的不同表述方式进行统一标准化,能够极大的方便用户对知识的理解及应用。

目前命名实体对齐方法主要有两类,一类是基于不同实体间的形态特征进行对齐,但部分形态特征对齐丧失了语义特征,准确率低;另一类是基于实体进行语义对齐,需要大量的训练数据进行训练,但训练数据不易获取导致该方法准确率也不高。

发明内容

本发明提供一种命名实体对齐方法、装置、电子设备及计算机可读存储介质,其主要目的在于降低模型训练的数据量,提高命名实体对齐的准确率。

为实现上述目的,本发明提供的一种命名实体对齐方法,包括:

获取待对齐命名实体,对所述待对齐命名实体进行标准化处理,得到标准待对齐命名实体;

获取测试命名实体集,对所述测试命名实体集进行抽样处理,得到测试命名实体子集;

利用每个测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合;

根据所述命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果。

可选地,所述利用每一个所述测试命名实体子集训练预设的神经网络模型,得到命名实体对齐模型集合,包括:

将所述测试命名实体子集中的每个测试命名实体转化为测试命名实体向量,得到测试命名实体向量子集;

将所述测试命名实体向量子集确定为训练集;

对所述测试命名实体向量子集进行标记,得到标签集;

利用所述训练集及所述标签集对所述神经网络模型进行训练,得到命名实体对齐模型;

汇总所有的所述命名实体对齐模型,得到所述命名实体对齐模型集合。

可选地,所述根据命名实体对齐模型集合对所述标准待对齐命名实体进行模型对齐之前,还包括:

利用所述标准待对齐命名实体在预构建的标准命名实体库中进行形态对齐,若所述形态对齐成功,得到所述对齐结果;

若所述形态对齐不成功,根据所述命名实体对齐模型集合对所述标准待对齐命名实体进行模型对齐。

可选地,所述利用所述标准待对齐命名实体在预构建的标准命名实体库中进行形态对齐,若所述形态对齐成功,得到所述对齐结果,包括:

计算所述标准待对齐命名实体与所述标准命名实体库中每个标准命名实体的编辑距离;

当在所述编辑距离中存在目标编辑距离等于预设编辑距离值时,确定对齐成功,选取所述目标编辑距离对应的标准命名实体作为所述对齐结果。

可选地,所述根据命名实体对齐模型集合对所述待对齐命名实体进行模型对齐,得到对齐结果,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010564906.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top