[发明专利]一种数据实体识别方法、装置、计算机设备及存储介质在审
| 申请号: | 202210430975.2 | 申请日: | 2022-04-22 |
| 公开(公告)号: | CN114780528A | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 樊文飞;陆平;朱筱可 | 申请(专利权)人: | 深圳计算科学研究院 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F16/2453;G06F16/242;G06F16/22 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 丁宇龙 |
| 地址: | 518000 广东省深圳市龙华区民治*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 实体 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据实体识别方法,其特征在于,包括:
通过数据的关系模式和属性构建数据集;
对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;
基于所述匹配规则,采用MQO技术生成查询计划;
利用所述查询计划对实体数据集合进行匹配计算。
2.根据权利要求1所述的数据实体识别方法,其特征在于,所述通过数据的关系模式和属性构建数据集,包括:
按照下式获取数据的关系模式:
R=(R1,…Ri,…Rm)
式中,Ri表示关系模式(A1:τ1,…Ai:τi,…An:τn),Ai表示属性类型τi;
将所述数据集D表示为D=(D1,…Di,…Dm),其中Di表示一种关系模式Ri下的一个关系。
3.根据权利要求2所述的数据实体识别方法,其特征在于,还包括:
按照下式对所述数据集中的谓词p进行设置:
式中,R(t)表示R的一个关系原子,即t是关系模式R下的一个元组变量;当t被R(t)绑定,A是关系模式R中的一个属性时,t.A表示元组变量t的属性A;在t.A=c中,c表示属性A的取值域中的一个常量;在t.A=s.B中,A∈R和B∈R'拥有同样的类型;M表示用于实体消解的ML分类器,和是两个等长的属性向量;表示用于实体消解的ML分类器;
将所述匹配规则φ中的变量赋值函数h,并将匹配规则φ中的每个关系原子R(t)绑定的元组变量t实例化映射成数据集D中的元组;
若p为R(t),t.a=c或t.a=s.B时,则按照一阶逻辑的标准语义进行关系演算的结果为真;
若p为则当ML分类器M在时预测结果为“匹配”;
若谓词合取X中的所有谓词p均满足时,则将函数设置为
4.根据权利要求1所述的数据实体识别方法,其特征在于,所述对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则,包括:
按照下式建立匹配规则φ:
X→l
式中,X是R上谓词的合取,l是形式为t.id=s.id或的谓词,其中,t和s在X中与关系模式进行了绑定;
分别将X和l设置为所述匹配规则φ的前提条件和结果。
5.根据权利要求1所述的数据实体识别方法,其特征在于,所述基于所述匹配规则,采用MQO技术生成查询计划,包括:
获取所述数据集的查询语句;
采用MQO技术将所述查询语句分解为多个子查询;
在多个子查询中查找搜索公共子查询,以生成有向无环图的查询计划。
6.根据权利要求3所述的数据实体识别方法,其特征在于,还包括:
按照共享关系原子数量对匹配规则设置第一顺序Or;
按照共享哈希函数的匹配规则的数量对数据集的谓词上设置第二顺序Op,并根据所述第二顺序为不同变量分配哈希函数;
在哈希函数上设置第三顺序Oh,按照所述第三顺序对不同变量进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳计算科学研究院,未经深圳计算科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210430975.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





