[发明专利]基于频繁关联标签序列的XML结构相似度度量方法有效

专利信息
申请号: 201110398187.1 申请日: 2011-12-02
公开(公告)号: CN102521325A 公开(公告)日: 2012-06-27
发明(设计)人: 张利军;李战怀;陈群;李霞 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西北工业大学专利中心 61204 代理人: 顾潮琪
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 频繁 关联 标签 序列 xml 结构 相似 度量 方法
【说明书】:

技术领域

发明属于数据管理技术领域,涉及一种XML文档的结构相似度度量方法,特别是涉及一种利用从XML文档集中挖掘到的频繁关联标签序列作为特征来度量XML文档结构相似度的方法。

背景技术

XML作为互联网上数据表示和数据交换的事实标准,已得到广泛的应用。随着XML文档数量的不断增长,如何有效地对XML数据进行存储、过滤、检索以及管理在数据库和信息检索领域变得越来越重要。许多对XML的操作任务需要度量XML文档之间的相似性,XML文档的相似性度量已经成为许多XML处理技术的基本问题,并被应用于多个领域,比如半结构化数据集成,XML文档的分类/聚类,XML检索等。

与传统的文本文档只包含内容不同,XML文档中包含了层次结构。如何利用包含在其中的结构信息来计算XML文档之间的结构相似度是XML相似度计算中的一个关键问题。针对这个问题研究人员提出了许多不同的方法。其中一些基于路径的方法将XML文档的结构表示为路径的集合,然后利用集合或者向量操作来计算文档之间的结构相似性。例如,考虑图1中的三个XML文档。文献[1]“Joshi,S.,Agrawal,N.,Krishnapuram,R.,Negi,S.:A Bag of Paths Model for Measuring Structural Similarity in Web Documents.In:Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining(SIGKDD).(2003)577-582.”提出的路径包模型(本说明书称其为BOTP模型)中,一个文档的结构被表示为路径的集合,一个路径是其对应的DOM树中从根节点到叶子节点的序列。如图1中的三个文档使用该模型表示如表1中的BOTP列。可以看出,doc1和doc2中的路径“a/b/c”和“a/b”,“a/e/f/g”和“a/h/f/g”都被视为完全不同的路径。事实上,这两组路径都是部分匹配,而且在很大程度上是相似的。另外,路径包模型虽然保留了节点之间的父子关系,但是忽略了其兄弟关系,认为路径之间是相互独立的,没有关系。例如doc1和doc3中的路径“a/b/c”和“a/d”被认为是相互独立的,事实上它们构成兄弟关系,频繁地同时出现在同一个文档中。文献[1]同时提出了另外一种基于XPath的路径包模型(称为BOXP模型)。该模型虽然包含了部分节点之间的兄弟关系,但并不完全。文献[2]“Leung,H.P.,Chung,F.L.,Chan,S.C.,Luk,R.:XML Document Clustering Using Common XPath.In:Proceedings of the International Workshop on Challenges in Web Information Retrieval and Integration.(2005)91-96.”从文档集中挖掘频繁的XPath,称为commonXPath,然后将XML文档表示为由commonXPath构成的向量。例如,设最小支持度为60%,则图1中的三个文档使用该模型的可表示如表1中第3列。尽管doc1和doc2中的路径“a/e/f/g”和“a/h/f/g”通过commonXPath:“a/*/f/g”被认为是相似的,但doc3中的路径“a/f/g”仍被认为不相似。事实上“a/e/f/g”,“a/h/f/g”和“a/f/g”这三个路径都是非常相似的。另外,文献[2]在通过向量计算相似度时同样认为路径之间是独立的。例如,三个文档都包含路径“a/b”和“a/d”,并构成兄弟关系,但文献[2]忽略了这种关系。文献[3]“Rafiei,D.,Moise,D.L.,Sun,D.:Finding Syntactic Similarities Between XML Documents.In:Proceedings of the 17th International Conference on Database and Expert Systems Applications(DEXA).(2006)512-516.”除了把从根节点到叶子节点的全路径作为特征外,还考虑了全路径的子路径,如图1中的三个文档使用该模型的可表示如表1中的第四列,这种方法在计算相似度时仍然忽略了节点之间的兄弟关系。

表1 XML文档的不同的路径表示

综上所述,现有的基于路径的计算XML文档结构相似度方法存在以下两个问题:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110398187.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top