[发明专利]基于属性级不确定性模型的一对多型PSJ聚集查询方法在审
申请号: | 201711208820.X | 申请日: | 2017-11-27 |
公开(公告)号: | CN108073689A | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 陈岭;王俊凯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不确定性 一对多 查询 概率分布 子集 联机分析处理 动态规划 数据仓库 依赖关系 建模 全集 数据库 应用 | ||
本发明公开了一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括:1)首先利用属性级不确定性模型为PSJ建模;2)在建模结果上,基于动态规划思想提出聚集查询方法:先计算出PSJ子集的聚集值概率分布,然后在子集的结果上计算出PSJ全集的聚集值概率分布。本发明充分考虑一对多型PSJ的依赖关系,结合属性级不确定性模型,解决了在一对多型PSJ上难以执行COUNT查询和SUM查询的问题,在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。
技术领域
本发明涉及概率型相似性连接(Probabilistic Similarity Join,PSJ)的聚集查询领域,具体涉及基于属性级不确定性模型的一对多型PSJ聚集查询方法。
背景技术
连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛,此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。然而,由于信息时代数据爆炸式增长,数据本身的不确定性以及数据采集和集成过程中引入的不确定性,导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接,进而导致基于连接操作的聚集查询失败。
PSJ查询基于相似性度量函数,能够将相似的元组连接起来,有效解决了不确定性数据的连接问题。按照映射约束的不同,PSJ可分为三类:一对一型PSJ、一对多型PSJ和多对多型PSJ。然而,PSJ查询的原始结果通常为一组带概率的连接,这组连接并不满足映射约束。从这组PSJ中选取出部分连接,使其满足映射约束,则该部分连接同时出现的状态称为一个可能世界,该可能世界的概率为该部分连接同时出现的联合概率。在PSJ上执行聚集查询,实质上是对所有可能世界求聚集值。但是,PSJ的可能世界数量众多,基于PSJ的聚集查询面临挑战。
在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量,但是这些方法不但丢失了大量信息,而且不考虑映射约束。
发明内容
本发明的目的是提供一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,该方法能够对一对多型PSJ建模,并基于模型有效地计算一对多型PSJ的COUNT值和SUM值概率分布,进而缩短计算时间,提高查询效率。
为实现上述目的,本发明提供的技术方案为:
一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括以下步骤:
(1)利用属性级不确定性模型为一对多型PSJ建模,形成PSJ全集的建模结果;
(2)基于所述建模结果,采用动态规划思想,计算PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算得PSJ全集的聚集值概率分布。
所述步骤(1)包括:
(1-1)为PSJ多端的每一条元组构造一条虚拟连接,确保互斥连接的概率和为1;
(1-2)为满足COUNT查询谓词条件的PSJ增加标志属性,为满足SUM查询谓词条件的PSJ增加求和属性;
(1-3)采用属性级不确定性模型对PSJ建模,将多端的每一条元组建模为一条属性级不确定性元组,组成属性级不确定性元组全集,形成PSJ全集的建模结果。
作为优选,所述步骤(1-2)包括:
若聚集查询为COUNT查询,则为PSJ增加一个属性F,表示所述PSJ是否满足谓词条件,如果若所述PSJ满足谓词条件,那么F=1,否则F=0;
若聚集查询为SUM查询,则为PSJ增加一个属性F,表示所述PSJ求和属性值的大小,若所述PSJ连接满足谓词条件,那么F等于所述PSJ的原始求和属性值,否则F=0。
所述计算PSJ子集的聚集值概率分布包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711208820.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据迁移的方法及装置
- 下一篇:一种视频目标检索方法