[发明专利]一种数据实体识别方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202210430975.2 申请日: 2022-04-22
公开(公告)号: CN114780528A 公开(公告)日: 2022-07-22
发明(设计)人: 樊文飞;陆平;朱筱可 申请(专利权)人: 深圳计算科学研究院
主分类号: G06F16/215 分类号: G06F16/215;G06F16/28;G06F16/2453;G06F16/242;G06F16/22
代理公司: 深圳市精英专利事务所 44242 代理人: 丁宇龙
地址: 518000 广东省深圳市龙华区民治*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 实体 识别 方法 装置 计算机 设备 存储 介质
【说明书】:

发明公开了一种数据实体识别方法、装置、计算机设备及存储介质,该方法包括:通过数据的关系模式和属性构建数据集;对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;基于所述匹配规则,采用MQO技术生成查询计划;利用所述查询计划对实体数据集合进行匹配计算。本发明提出了扩展匹配依赖(MRLs)作为实体消解的规则模型,同时提出了一种适用于MRLs的并行实体消解算法PER,即使用MRLs作为匹配规则,以此达到高的准确率和可解释性,同时使用HyperCube和MQO方法相结合降低通信和计算成本。除此之外,本发明还设计了匹配算法的专用数据结构以加速算法执行并降低内存占用。

技术领域

本发明涉及计算机软件技术领域,特别涉及一种数据实体识别方法、装置、计算机设备及存储介质。

背景技术

实体识别(ER),也称为重复数据删除,实体消解或记录链接,是指识别指向同一现实世界实体的关系中的元组的过程。作为一种提升数据质量的重要方法,实体识别受到研究人员的广泛关注。我们将相关技术背景分类如下。

基于学习(ML)的工作:例如基于深度学习的ER方法、基于主动学习的ER方法和基于迁移学习的ER方法;

附加依赖项:例如,建立在单表(关系)上的唯一性约束、附加依赖项(MD)和匹配规则;

机器学习与逻辑规则混合的方法:例如,通过使用附加依赖项和匹配规则来对数据进行预处理,最后使用ML对数据进行判别。

为了进一步提升消解质量,现有技术提出Collective ER方法。相较于传统ER方法,Collective ER方法在消解过程通过链接其他关系,考虑了更多的他表信息从而提高了消解准确率。为了提高ER效率,当前通常使用滑动窗口技术和数据划分技术。其中滑动窗口首先对表中的元组进行排序,然后使用滑动窗口机制确定工作集,ER运算仅发生在对应于同一窗口的数据元祖。数据分块首先通过主键将相似实体聚类为“不相交”的数据块,然后仅在每个块内进行成对比较。

并行实体消解:并行ER算法已经在MapReduce(一种编程模型,用于大规模数据集(大于1TB)的并行运算)或MPC(一种反馈控制策略)下进行了研究。

综上来看,现有的实体消解方法具有如下不足或限制:

虽然人们早就认识到更准确的ER需要将跨多个表的信息集成到一起(CollectiveER),但现有的数据质量规则难以表达Collective ER,并且Collective ER的计算复杂性问题也尚未得到解决。效率方面,传统滑动窗口技术或者数据划分技术均不再适用于Collective ER,因为它们针对的是同构元组表,而Collective ER则适用于多个表(关系)。传统的ER虽然能够链接其他关系但是并不能通过使用之前推导出的匹配来识别新的匹配,从而限制了ER质量。因此,如何提高实体识别的准确性和效率是本领域技术人员需要解决的问题。

发明内容

本发明实施例提供了一种数据实体识别方法、装置、计算机设备及存储介质,旨在提高对数据的实体识别效率和精度。

第一方面,本发明实施例提供了一种数据实体识别方法,包括:

通过数据的关系模式和属性构建数据集;

对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;

基于所述匹配规则,采用MQO技术生成查询计划;

利用所述查询计划对实体数据集合进行匹配计算。

第二方面,本发明实施例提供了一种数据实体识别装置,包括:

数据集构建单元,用于通过数据的关系模式和属性构建数据集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳计算科学研究院,未经深圳计算科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210430975.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top