[发明专利]基于属性共现模式的DeepWeb查询接口模式匹配方法有效
申请号: | 201410311727.1 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104036046B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 冯永;陆维 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市前沿专利事务所(普通合伙)50211 | 代理人: | 郭云 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 模式 deep web 查询 接口 匹配 方法 | ||
技术领域
本发明涉及计算机领域,Deep Web数据集成的一个模块,即查询接口模式匹配。将数据挖掘中的相关性挖掘技术很好地应用到查询接口模式匹配问题上,同时,将查询接口模式匹配问题抽象成为一种相关性挖掘现象。本发明尤其涉及一种基于属性共现模式的Deep Web查询接口模式匹配方法。
背景技术
一方面,DCM通过负相关度量间接得到的正相关度量mp=1-mn,这里mp经过化简,(下标n表示负相关,下标p表示正相关。f10表示属性Ap出现的情况下Aq不出现的次数,f01类似;f1+表示属性Ap出现的次数,f+1表示属性Aq出现的次数。)
由于两个属性被判断为正相关的,是依据两者通常会一起出现的特点。但等式的前两项和并不能描述两属性具有正相关性的含义,从而错误地作为正相关支撑。只有第三项能够更加真实和准确地反映两个属性的正相关强度,即属性Ap出现的情况下,属性Aq同时出现的概率与属性Aq出现的情况下,属性Ap同时出现的概率两者的乘积越大,表示两者的正相关性越强,即Ap和Aq构成组关系的可能性会越高。
另一方面,对于DCM方法中的负相关度量这里0≤mn≤1,mn越接近于1,表示两个属性的负相关性越强。当出现两个属性同时出现的次数f11=0时,则f1+=f10+f11=f10且f+1=f01+f11=f01,导致mn恒等于1。所以凭借这样的mn根本无法辨识两个属性到底是具有真正的负相关性,还是完全无关的情况。
例如:属性Ap和Aq出现的两种情形,其中,Ap、Aq表示任意两个属性的名称。
如图1所示。在图1A中,属性Ap实际上只是一个稀有属性,Ap和Aq很有可能是无关的,但因为存在很高的使得Ap和Aq会被误以为具有匹配关系;而图1B中,Ap和Aq因为频繁地交叉出现,是真正具有组关系的两个属性。对于图1A和1B两种不同的情况,DCM的mn度量却计算出相同的负相关度量值mn=1。所以,DCM的负相关度量mn具有这样的两个缺陷:一是当f11=0时,mn无法辨识两个属性到底是具有真正的负相关性,还是完全无关的情况;二是mn对于稀有属性也有可能给予很高的匹配得分。图1是属性Ap和Aq出现的两种情形。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于属性共现模式的Deep Web查询接口模式匹配方法。
为了实现本发明的上述目的,本发明提供了一种基于属性共现模式的Deep Web查询接口模式匹配方法,其关键在于,包括如下步骤:
步骤1,从每个数据源的查询接口抽取的模式集合S,找到所述模式集合S出现模式频率大于等于阈值Tc的属性集合A;根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数,通过组关系度量公式计算出组得分;组得分大于组关系阈值Tg的两个属性为一个属性组,所有这样的属性组构成一个集合Gp;
步骤2,根据步骤1得到的的集合Gp,根据向下闭包性质,找到具有属性个数更多的组关系的集合G;
步骤3,发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410311727.1/2.html,转载请声明来源钻瓜专利网。