[发明专利]一种实体匹配方法和装置有效
申请号: | 202110818313.8 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113609304B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 周琥晨;李默涵;张雨成;顾钊铨;韩伟红;唐可可 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;颜希文 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 匹配 方法 装置 | ||
本发明涉及实体匹配技术领域,公开了一种实体匹配方法和装置,所述方法包括:获取第一数据集和第二数据集,数据集包括若干条实体记录,实体记录包括若干个属性;获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,根据实体记录中多个属性间的预设潜在关系,将第三数据集中每个实体记录进行句子组合,获得包括第二组合的第四数据集;将第四数据集中的第二组合输入到预设的Bert模型,Bert模型用于判断第二组合的两个句子否匹配并输出匹配结果。有益效果:将第三数据集中的实体记录替换为根据属性潜在关系生成的句子,可以使第二组合输入到Bert模型中的数据保留属性之间的联系,使数据集的实体记录匹配结果更加准确。
技术领域
本发明涉及实体匹配技术领域,特别是涉及一种实体匹配方法和装置。
背景技术
实体匹配的目标是识别出同一现实世界的实体在不同数据源中的异构表达。实体匹配是知识融合的重要的步骤,但是现实世界存在多源异构的数据环境,例如结构化的数据、脏数据、文本化的数据等。这些多源异构环境需要被着重考虑,并且需要有针对性的处理方法。
在实体匹配的任务中,待匹配的数据为A,B两个数据集,A,B中分别包含若干条实体记录,每一条实体记录包含一个实体的若干个属性,A,B具有相同的属性。A,B两个数据集是两个不同来源的数据集,两个数据集中分别存在很多描述现实世界同一实体的实体记录,实体匹配任务的目标是找到第一数据集,B中所有匹配的实体记录对。例如,每一个匹配的实体记录对由两条分别来自第一数据集和B的实体记录tA和tB组成,tA和tB描述了同一现实世界实体,第一数据集中可能存在多条实体记录ti和第二数据集的tB对应。
现有技术中存在一些实体匹配方法,但是这些实体匹配方法往往直接采用实体记录进行匹配,没有考虑实体记录中属性之间的关系,造成匹配结果有较大的误差,因此需要对现有的实体匹配方法进行改进,体高实体匹配的准确性。
发明内容
本发明的目的是:提供一种实体匹配方法和装置,综合考虑实体记录的内容,提高实体匹配的准确性。
为了实现上述目的,本发明提供了一种实体匹配方法,包括:
获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性。
获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合。
根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合。
将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果。
进一步的,在得到第三数据集之后,对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的第一组合。
进一步的,所述对第三数据集进行阻断操作,具体的方法包括:属性相等阻断和基于规则阻断;
所述属性相等阻断具体为:判断每一组第一组合中两个实体记录的多个属性值是否相等,若存在第一数量的属性值均不相等,则删除此第一组合,若不存在第一数量的属性值均相等,则保留此第一组合,所述第一数量小于实体记录的属性个数。
所述基于规则阻断具体为:判断每一组第一组合中两个实体记录的属性值是否同时满足预设的第一条件,若满足第一条件则保留,若不满足第一条件则删除。
进一步的,在对第三数据集进行阻断操作之后,对第三数据集进行第一预处理,使经过第一预处理的第三数据集满足SBert模型输入标准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110818313.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:炉料烘干装置及烘干方法
- 下一篇:饮水机取水方法、装置、设备及可读存储介质