[发明专利]一种数据实体识别方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202210430975.2 申请日: 2022-04-22
公开(公告)号: CN114780528A 公开(公告)日: 2022-07-22
发明(设计)人: 樊文飞;陆平;朱筱可 申请(专利权)人: 深圳计算科学研究院
主分类号: G06F16/215 分类号: G06F16/215;G06F16/28;G06F16/2453;G06F16/242;G06F16/22
代理公司: 深圳市精英专利事务所 44242 代理人: 丁宇龙
地址: 518000 广东省深圳市龙华区民治*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 实体 识别 方法 装置 计算机 设备 存储 介质
【权利要求书】:

1.一种数据实体识别方法,其特征在于,包括:

通过数据的关系模式和属性构建数据集;

对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则;

基于所述匹配规则,采用MQO技术生成查询计划;

利用所述查询计划对实体数据集合进行匹配计算。

2.根据权利要求1所述的数据实体识别方法,其特征在于,所述通过数据的关系模式和属性构建数据集,包括:

按照下式获取数据的关系模式:

R=(R1,…Ri,…Rm)

式中,Ri表示关系模式(A11,…Aii,…Ann),Ai表示属性类型τi

将所述数据集D表示为D=(D1,…Di,…Dm),其中Di表示一种关系模式Ri下的一个关系。

3.根据权利要求2所述的数据实体识别方法,其特征在于,还包括:

按照下式对所述数据集中的谓词p进行设置:

式中,R(t)表示R的一个关系原子,即t是关系模式R下的一个元组变量;当t被R(t)绑定,A是关系模式R中的一个属性时,t.A表示元组变量t的属性A;在t.A=c中,c表示属性A的取值域中的一个常量;在t.A=s.B中,A∈R和B∈R'拥有同样的类型;M表示用于实体消解的ML分类器,和是两个等长的属性向量;表示用于实体消解的ML分类器;

将所述匹配规则φ中的变量赋值函数h,并将匹配规则φ中的每个关系原子R(t)绑定的元组变量t实例化映射成数据集D中的元组;

若p为R(t),t.a=c或t.a=s.B时,则按照一阶逻辑的标准语义进行关系演算的结果为真;

若p为则当ML分类器M在时预测结果为“匹配”;

若谓词合取X中的所有谓词p均满足时,则将函数设置为

4.根据权利要求1所述的数据实体识别方法,其特征在于,所述对所述数据集中的谓词进行合取,并根据合取的谓词和数据的关系模式建立匹配规则,包括:

按照下式建立匹配规则φ:

X→l

式中,X是R上谓词的合取,l是形式为t.id=s.id或的谓词,其中,t和s在X中与关系模式进行了绑定;

分别将X和l设置为所述匹配规则φ的前提条件和结果。

5.根据权利要求1所述的数据实体识别方法,其特征在于,所述基于所述匹配规则,采用MQO技术生成查询计划,包括:

获取所述数据集的查询语句;

采用MQO技术将所述查询语句分解为多个子查询;

在多个子查询中查找搜索公共子查询,以生成有向无环图的查询计划。

6.根据权利要求3所述的数据实体识别方法,其特征在于,还包括:

按照共享关系原子数量对匹配规则设置第一顺序Or

按照共享哈希函数的匹配规则的数量对数据集的谓词上设置第二顺序Op,并根据所述第二顺序为不同变量分配哈希函数;

在哈希函数上设置第三顺序Oh,按照所述第三顺序对不同变量进行排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳计算科学研究院,未经深圳计算科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210430975.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top