[发明专利]一种数据实体识别方法、装置、计算机设备及存储介质在审
申请号: | 202210430975.2 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114780528A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 樊文飞;陆平;朱筱可 | 申请(专利权)人: | 深圳计算科学研究院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F16/2453;G06F16/242;G06F16/22 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 丁宇龙 |
地址: | 518000 广东省深圳市龙华区民治*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 实体 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种数据实体识别方法、装置、计算机设备及存储介质,该方法包括:通过数据的关系模式和属性构建数据集;对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;基于所述匹配规则,采用MQO技术生成查询计划;利用所述查询计划对实体数据集合进行匹配计算。本发明提出了扩展匹配依赖(MRLs)作为实体消解的规则模型,同时提出了一种适用于MRLs的并行实体消解算法PER,即使用MRLs作为匹配规则,以此达到高的准确率和可解释性,同时使用HyperCube和MQO方法相结合降低通信和计算成本。除此之外,本发明还设计了匹配算法的专用数据结构以加速算法执行并降低内存占用。
技术领域
本发明涉及计算机软件技术领域,特别涉及一种数据实体识别方法、装置、计算机设备及存储介质。
背景技术
实体识别(ER),也称为重复数据删除,实体消解或记录链接,是指识别指向同一现实世界实体的关系中的元组的过程。作为一种提升数据质量的重要方法,实体识别受到研究人员的广泛关注。我们将相关技术背景分类如下。
基于学习(ML)的工作:例如基于深度学习的ER方法、基于主动学习的ER方法和基于迁移学习的ER方法;
附加依赖项:例如,建立在单表(关系)上的唯一性约束、附加依赖项(MD)和匹配规则;
机器学习与逻辑规则混合的方法:例如,通过使用附加依赖项和匹配规则来对数据进行预处理,最后使用ML对数据进行判别。
为了进一步提升消解质量,现有技术提出Collective ER方法。相较于传统ER方法,Collective ER方法在消解过程通过链接其他关系,考虑了更多的他表信息从而提高了消解准确率。为了提高ER效率,当前通常使用滑动窗口技术和数据划分技术。其中滑动窗口首先对表中的元组进行排序,然后使用滑动窗口机制确定工作集,ER运算仅发生在对应于同一窗口的数据元祖。数据分块首先通过主键将相似实体聚类为“不相交”的数据块,然后仅在每个块内进行成对比较。
并行实体消解:并行ER算法已经在MapReduce(一种编程模型,用于大规模数据集(大于1TB)的并行运算)或MPC(一种反馈控制策略)下进行了研究。
综上来看,现有的实体消解方法具有如下不足或限制:
虽然人们早就认识到更准确的ER需要将跨多个表的信息集成到一起(CollectiveER),但现有的数据质量规则难以表达Collective ER,并且Collective ER的计算复杂性问题也尚未得到解决。效率方面,传统滑动窗口技术或者数据划分技术均不再适用于Collective ER,因为它们针对的是同构元组表,而Collective ER则适用于多个表(关系)。传统的ER虽然能够链接其他关系但是并不能通过使用之前推导出的匹配来识别新的匹配,从而限制了ER质量。因此,如何提高实体识别的准确性和效率是本领域技术人员需要解决的问题。
发明内容
本发明实施例提供了一种数据实体识别方法、装置、计算机设备及存储介质,旨在提高对数据的实体识别效率和精度。
第一方面,本发明实施例提供了一种数据实体识别方法,包括:
通过数据的关系模式和属性构建数据集;
对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;
基于所述匹配规则,采用MQO技术生成查询计划;
利用所述查询计划对实体数据集合进行匹配计算。
第二方面,本发明实施例提供了一种数据实体识别装置,包括:
数据集构建单元,用于通过数据的关系模式和属性构建数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳计算科学研究院,未经深圳计算科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210430975.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置