[发明专利]一种实体匹配方法和装置有效
申请号: | 202110818313.8 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113609304B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 周琥晨;李默涵;张雨成;顾钊铨;韩伟红;唐可可 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;颜希文 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 匹配 方法 装置 | ||
1.一种实体匹配方法,其特征在于,包括:
获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性;
获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合;
根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合;
将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果;
其中,根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,具体为:
获取实体记录中任意两个属性之间的潜在关系,并将获取任意两个属性根据潜在关系所组成的短语;其中,属性之间的潜在关系是根据数据集和各属性列的语义统一赋予的;
将得到的多个短语组成句子;
将得到的句子按照句子和实体记录的对应关系替换到第三数据集中。
2.根据权利要求1所述的一种实体匹配方法,其特征在于,还包括:在得到第三数据集之后,对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的第一组合。
3.根据权利要求2所述的一种实体匹配方法,其特征在于,所述对第三数据集进行阻断操作,具体的方法包括:属性相等阻断和基于规则阻断;
所述属性相等阻断具体为:判断每一组第一组合中两个实体记录的多个属性值是否相等,若存在第一数量的属性值均不相等,则删除此第一组合,若不存在第一数量的属性值均相等,则保留此第一组合,所述第一数量小于实体记录的属性个数;
所述基于规则阻断具体为:判断每一组第一组合中两个实体记录的属性值是否同时满足预设的第一条件,若满足第一条件则保留,若不满足第一条件则删除。
4.根据权利要求2所述的一种实体匹配方法,其特征在于,还包括:在对第三数据集进行阻断操作之后,对第三数据集进行第一预处理,使经过第一预处理的第三数据集满足SBert模型输入标准。
5.根据权利要求1所述的一种实体匹配方法,其特征在于,所述Bert模型具体为SBert模型,所述SBert模型包括采用权值共享孪生神经网络的第一Bert模型和第二Bert模型;第二组合输入到SBert模型时,所述第一Bert模型和第二Bert模型分别用于处理第二组合中的两个句子,且保存每个句子所转化的实体嵌入向量。
6.根据权利要求5所述的一种实体匹配方法,其特征在于,当后输入的第二组合中的句子已经被 SBert模型处理过时,调用保存的实体嵌入向量进行匹配判断。
7.根据权利要求1所述的一种实体匹配方法,其特征在于,所述通过实体嵌入向量比较每组第二组合中的两个句子是否匹配,具体为:
计算第二组合中两个句子所对应的实体嵌入向量的余弦相似度,并判断所述余弦相似度的值是否大于等于预设的第一阈值,若大于等于第一阈值,则确定第一组合中的两个句子相匹配,若小于第一阈值则确定第一组合中的两个句子不相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110818313.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:炉料烘干装置及烘干方法
- 下一篇:饮水机取水方法、装置、设备及可读存储介质