[发明专利]基于属性共现模式的DeepWeb查询接口模式匹配方法有效
申请号: | 201410311727.1 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104036046B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 冯永;陆维 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市前沿专利事务所(普通合伙)50211 | 代理人: | 郭云 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于属性共现模式的Deep Web查询接口模式匹配方法,Deep Web查询接口作为获得Web数据库信息的唯一途径,集成问题的首要任务是完成查询接口间的模式匹配。本发明抓住某特定领域属性在各个Deep Web数据源的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,设计了组关系度量和匹配关系度量。同时考虑到匹配得分阈值因依赖于领域而较难确定的特点,为保证算法的灵活性,算法并未设置该阈值。最后,本文利用一种贪心策略,识别出当前具有更高匹配得分和更丰富语义的匹配关系,并采用特定的消除匹配冲突的策略,从而找到某特定领域存在的多分支复杂匹配集。 | ||
搜索关键词: | 基于 属性 模式 deep web 查询 接口 匹配 方法 | ||
【主权项】:
一种基于属性共现模式的Deep Web查询接口模式匹配方法,其特征在于,包括如下步骤:步骤1,从每个数据源的查询接口抽取的模式集合S,找到所述模式集合S出现模式频率大于等于阈值Tc的属性集合A;根据属性集合A中每两个属性在所述模式集合S中的一起出现的次数,通过组关系度量公式计算出组得分;组得分大于组关系阈值Tg的两个属性为一个属性组,所有这样的属性组构成一个集合Gp;步骤2,根据步骤1得到的的集合Gp,根据向下闭包性质,找到具有属性个数更多的组关系的集合G;步骤3,发现的G中的每个潜在的属性组分别作为一个整体加入到步骤1得到的属性集合A中;步骤4,对于集合A中的所有属性组,根据匹配关系度量计算公式,计算出每两个属性组的匹配得分,匹配得分大于零的所有的匹配,构成一个匹配集合Mp;所述步骤4包括步骤4‑1,步骤4‑2:步骤4‑1,对于所有属于集合A的两个属性组Gi,Gj,其中Gi≠Gj,得出Gi和Gj在查询接口模式集合S中的一起出现的次数f11,在查询接口模式集合S中Gi出现但Gj不出现的次数f10,在查询接口模式集合S中Gi不出现但Gj出现的次数f01,Gi在查询接口模式集合S中出现的次数f1+、Gj在查询接口模式集合S中出现的次数f+1,其中,对这类属性组出现次数的计算方式为:如果该属性组的任意一个属性出现在某个接口模式中,则该属性组的出现次数加一,因为属性组的每个属性,都部分代表了该属性组的概念或语义;如果该属性组的所有属性都未出现在某个接口模式中,则该属性组的不出现次数加一;步骤4‑2,根据本发明匹配关系度量rm的计算公式,计算出属性组Gi和Gj的匹配得分,对于匹配得分大于零的两个属性组Gi和Gj,则构成一个匹配Mk,判断其具有匹配关系,对于找到的所有的匹配,构成一个匹配集合Mp;步骤5,根据步骤4得到匹配集合Mp,根据向下闭包性质,找到具有属性组个数更多的复杂匹配关系的集合M;步骤6,从复杂匹配关系的集合M中识别出所有真正的复杂匹配是一个不断迭代的过程,每一次迭代,从复杂匹配关系的集合M中,选取一个真正的复杂匹配Mt后,剩余的某些潜在匹配必然与这个真正的复杂匹配存在冲突,经过冲突处理的潜在复杂匹配集进入下一轮迭代过程,即选取下一个具有当前最高匹配得分的复杂匹配,迭代过程继续,直至经过冲突处理的复杂匹配关系的集合M为空;步骤7,输出多分支复杂匹配集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410311727.1/,转载请声明来源钻瓜专利网。