[发明专利]一种异构数据库环境下语义集成过程的并行计算方法在审
申请号: | 201110344888.7 | 申请日: | 2011-11-01 |
公开(公告)号: | CN103092868A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 杨际荣 | 申请(专利权)人: | 镇江华扬信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212009 江苏省镇江市镇江新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 环境 语义 集成 过程 并行 计算方法 | ||
技术领域
本发明涉及一种异构数据库环境下语义集成过程的并行计算方法。是一种能提高系统性能并且不降低查准率和查全率计算方法。
背景技术
在异构数据库环境下能够区分出相同和不相同的属性是实现数据库互操作的一个重要前提条件。许多参考文献讨论了如何区分异构数据库中相同属性的问题。但这些方法不能区分出现实世界中存在的不相同(似)的数据类型描述的同一属性(后面给出数据类型之间相同(似)性的定义)。例如,关系模式:Student(Sno,Shame,Sage.Sdept)假如描述属性Sno的数据类型是整型,则用于区分属性的特征向量类似为:
(data type,length,key or not,value constraints,aver-age,rain,max)
特征向量的具体取值为:(int,4,key,not null,95030,95001。95059)1
假如描述属性Sno的数据类型是字符型,则用于区分属性的特征向量类似为:(data type,length,key or not,value constraints,theratio of the number of numerical characters to the totalnumber of characters,the ratio of white-space charac-ters tO total characters,statistics on length)。
特征向量的具体取值为:(char,5,key,not null,1,0,5)2
显然,由于用不相同(似)数据类型描述同一属性时特征向量的巨大差异性,目前通过比较描述属性的特征向量信息不能够区分出不相同(似)的数据类型描述的同一属性(如(1)和(2)).
既然用描述属性的特征向量信息不能区分出不相同(似)的数据类型描述的同一属性,我们认为在不相同(似)的数据类型描述的属性中进行相似属性的确定是无实际意义的.所以,本文提出一种基于数据类型的方法来实现异构数据环境下相同属性的确定。该方法要求首先对各个数据库中的数据根据数据类型分类,然后在数据库之间具有相同数据类型描述的属性内部进行属性是否相同的确定。由于属性根据数据类型进行了分类,从而可以实现不同数据类型内确定相同属性过程的并行计算(在第3部分理论上分析了该方法并行计算的可行性),同时,该方法也明显地减少了语义集成过程中属性的比较次数。实验结果显示我们提出的方法能明显提高系统的运行效率,并且不降低语义集成中数据的查准率和查全率。
发明内容
基于上述情况,特此发明一种异构数据库环境下语义集成过程的并行计算方法;该方法根据属性的元数据信息排除了大部分不相等的属性对,从而解决了文[10,11]中确定属性关系时比较费时的问题。但是,该方法仅使用属性的元数据信息,并未使用数据内容信息,使用文[9]中的规则。则具有相同元数据信息描述的不同属性不能被区分开。同时,该方法不能实现相同属性确定过程的并行计算。我们认为为了提高数据的查准率和查全率,描述属性的特征向量中应增加描述数据内容方面的信息,通过计算模式信息和数据内容与统计信息的概率值来确定相同属性。
1.在数值型属性间进行相同属性的确定;首先,进行数值型属性间相同属性的确定。我们把描述数值型属性特征的信息分为三类:模式信息、数据限制和数据内容。
(1)模式信息:包括数据类型、长度、是否为键属性;
(2)数据限制:包括外键信息、属性取值范围限制、是否允许为空;
(3)数据内容:包括最大值、最小值、平均值、标准差;
2.在字符型属性间进行相同属性的确定;其中模式信息、数据限制如数值型属性,数据内容部分包括:字符型属性的具体取值中数字字符占整个字符的比率,空白字符占整个字符的比率,字符所占空间的统计长度。其中,:字符所占空间的统计长度是指实际用来存储字符的长度,而不是事先分配的存储空问的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江华扬信息科技有限公司,未经镇江华扬信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110344888.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一次编程存储器及其制备方法
- 下一篇:用于储值卡消费系统的自助充值系统