[发明专利]一种对概率数据库查询结果予以解释与擦改的系统及方法有效
| 申请号: | 201110003411.2 | 申请日: | 2011-01-10 |
| 公开(公告)号: | CN102073718A | 公开(公告)日: | 2011-05-25 |
| 发明(设计)人: | 冯铃;陈建文 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 概率 数据库 查询 结果 予以 解释 系统 方法 | ||
[技术领域]
本发明涉及数据管理技术领域,特别是关于一种对概率数据库查询结果予以解释与擦改的系统及方法。
[背景技术]
将移动Internet变成流行技术的一个挑战是管理从移动普适环境搜集到的原始数据并将其变成适合决策支持的信息的复杂性。复杂性的一个主要来源是不确定性,可以是本体的不确定性,也可以是认识上的不确定性。本体上的不确定性主要是由于没有说明何种类型的实体存在,认识上的不确定性主要来源于测量噪声,偏差或不充分的样本,由于传感器或者网络故障而丢失的数据,模糊的情形,以及不同的解释。本发明主要利用概率理论解决认识上的不确定性。
目前,在移动计算环境下表示和查询不确定数据已经有了大量的研究工作,其中最有代表性的是概率数据库,包括概率数据模型,概率查询和概率查询的近似计算等方面。许多大学和科研机构都相继开发了概率数据库的原型系统,例如斯坦福大学的Trio,华盛顿大学的MYSTIQ,康奈尔大学的MayBMS等等。
在数据库领域,为了表示不确定数据,概率模型是被采纳的最为广泛的一种数据模型。不确定数据的粒度包括关系表、元组和属性三种级别,其中基于元组的不确定数据模型最有吸引力,这主要是因为它在表达方面(概率事件之间的独立性)和计算效率方面做了很好的权衡。本发明的研究基础是基于元组的概率数据模型。提交给概率数据库的查询返回一个概率结果元组的集合,其中每个概率结果元组是从存放在数据库中的基本概率元组导出的。计算结果元组的概率值可以归结为计算一个任意事件表达式的概率值问题,其时间复杂度可以是PTIME(多项式时间),也可以是#P-hard(#P难),这与事件表达式有关。为了解决#P-hard的情形,一些近似的计算策略被开发出来,包括基于图的搜索算法,基于查询计划搜索的优化算法,基于蒙特-卡罗模拟的随机算法,和基于概率区间的算法。另外,在概率数据库中,许多具体类型的查询也得到了支持,例如top-K(前K)查询、Skyline(地平线)分析和聚集查询等等。
除了大量的针对提高概率数据库的查询效率的研究工作之外,通过清洗数据库中存放的不确定数据从而提高数据库查询结果的质量也得到了学术界的重视。已有的研究工作包括通过完整性约束修正数据库中存放的数据的错误,为数据库中发生冲突的数据赋予相应的概率值,在不一致的概率数据库中支持一致的数据库查询,通过时空聚集恢复缺失的或不可靠的传感器数据,通过重新探测传感器数据源消除数据的不确定性。
为系统返回的结果提供解释的工作起源于人工智能领域。一个句子P的解释被定义为一个导出句子P的句子的集合E。如果集合E中的所有句子成立,那么句子P也成立。在专家系统、推荐系统等信息系统中,解释通常被用作用户理解、教育、接受、说服、系统调试和擦除的目的。在数据库领域,查询结果的解释通常只考虑查询计划和路径选择,主要目的是调整应用程序以更好的利用索引。最近,已经有针对解释为什么一个查询结果被返回的研究工作,但研究的重点主要是针对传统的数据库而不是概率数据库。另外,在传统数据库领域,也有针对rank(排序)查询的解释方面的研究工作,对能够解释一个元组的rank的属性进行排序。数据证明和亲缘的概念,主要是追踪数据是由哪些基本数据导出的,最近也得到了学术界的重视。数据证明和亲缘可以提供很多重要的更能,例如解释、验证和重新计算。斯坦福的Panda项目致力于将基于数据的和基于过程的证明无缝的结合起来,提供一种通用的查询、分析和使用数据证明的语言。
在信息检索领域,由于用户查询的模糊性和系统返回的文档的冗余性,在用户反馈技术方面有很多的研究工作。在用户的反馈过程中,用户通常被要求按照某种原则和个人偏好对返回的结果进行打分,系统然后更新匹配的原则,返回更符合用户要求的查询结果。普适计算领域的研究人员也提出在场景感知的应用程序中使用用户反馈的技术,这主要是因为与用户有关的场景信息不能通过技术的手段感知或者推断出来。
[发明内容]
本发明的目的提出了一种在概率数据库中对查询结果进行解释和擦改的系统及方法,从而为用户提供了更准确的查询结果。
本发明提供的一种对概率数据库中查询结果予以解释与擦改的方法,所述概率数据库中以表的方式存储数据,表中的每个元组被看作是对一个概率事件的描述,每一个元组包括事件识别符和概率值字段,概率值字段表示本元组所描述的概率事件发生的概率,包括如下的步骤:
(1)用户提交结构化查询语言查询;
(2)对用户提交的查询进行处理,获得处理后的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110003411.2/2.html,转载请声明来源钻瓜专利网。





