[发明专利]基于频繁关联标签序列的XML结构相似度度量方法有效
申请号: | 201110398187.1 | 申请日: | 2011-12-02 |
公开(公告)号: | CN102521325A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 张利军;李战怀;陈群;李霞 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 顾潮琪 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频繁 关联 标签 序列 xml 结构 相似 度量 方法 | ||
技术领域
本发明属于数据管理技术领域,涉及一种XML文档的结构相似度度量方法,特别是涉及一种利用从XML文档集中挖掘到的频繁关联标签序列作为特征来度量XML文档结构相似度的方法。
背景技术
XML作为互联网上数据表示和数据交换的事实标准,已得到广泛的应用。随着XML文档数量的不断增长,如何有效地对XML数据进行存储、过滤、检索以及管理在数据库和信息检索领域变得越来越重要。许多对XML的操作任务需要度量XML文档之间的相似性,XML文档的相似性度量已经成为许多XML处理技术的基本问题,并被应用于多个领域,比如半结构化数据集成,XML文档的分类/聚类,XML检索等。
与传统的文本文档只包含内容不同,XML文档中包含了层次结构。如何利用包含在其中的结构信息来计算XML文档之间的结构相似度是XML相似度计算中的一个关键问题。针对这个问题研究人员提出了许多不同的方法。其中一些基于路径的方法将XML文档的结构表示为路径的集合,然后利用集合或者向量操作来计算文档之间的结构相似性。例如,考虑图1中的三个XML文档。文献[1]“Joshi,S.,Agrawal,N.,Krishnapuram,R.,Negi,S.:A Bag of Paths Model for Measuring Structural Similarity in Web Documents.In:Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining(SIGKDD).(2003)577-582.”提出的路径包模型(本说明书称其为BOTP模型)中,一个文档的结构被表示为路径的集合,一个路径是其对应的DOM树中从根节点到叶子节点的序列。如图1中的三个文档使用该模型表示如表1中的BOTP列。可以看出,doc1和doc2中的路径“a/b/c”和“a/b”,“a/e/f/g”和“a/h/f/g”都被视为完全不同的路径。事实上,这两组路径都是部分匹配,而且在很大程度上是相似的。另外,路径包模型虽然保留了节点之间的父子关系,但是忽略了其兄弟关系,认为路径之间是相互独立的,没有关系。例如doc1和doc3中的路径“a/b/c”和“a/d”被认为是相互独立的,事实上它们构成兄弟关系,频繁地同时出现在同一个文档中。文献[1]同时提出了另外一种基于XPath的路径包模型(称为BOXP模型)。该模型虽然包含了部分节点之间的兄弟关系,但并不完全。文献[2]“Leung,H.P.,Chung,F.L.,Chan,S.C.,Luk,R.:XML Document Clustering Using Common XPath.In:Proceedings of the International Workshop on Challenges in Web Information Retrieval and Integration.(2005)91-96.”从文档集中挖掘频繁的XPath,称为commonXPath,然后将XML文档表示为由commonXPath构成的向量。例如,设最小支持度为60%,则图1中的三个文档使用该模型的可表示如表1中第3列。尽管doc1和doc2中的路径“a/e/f/g”和“a/h/f/g”通过commonXPath:“a/*/f/g”被认为是相似的,但doc3中的路径“a/f/g”仍被认为不相似。事实上“a/e/f/g”,“a/h/f/g”和“a/f/g”这三个路径都是非常相似的。另外,文献[2]在通过向量计算相似度时同样认为路径之间是独立的。例如,三个文档都包含路径“a/b”和“a/d”,并构成兄弟关系,但文献[2]忽略了这种关系。文献[3]“Rafiei,D.,Moise,D.L.,Sun,D.:Finding Syntactic Similarities Between XML Documents.In:Proceedings of the 17th International Conference on Database and Expert Systems Applications(DEXA).(2006)512-516.”除了把从根节点到叶子节点的全路径作为特征外,还考虑了全路径的子路径,如图1中的三个文档使用该模型的可表示如表1中的第四列,这种方法在计算相似度时仍然忽略了节点之间的兄弟关系。
表1 XML文档的不同的路径表示
综上所述,现有的基于路径的计算XML文档结构相似度方法存在以下两个问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110398187.1/2.html,转载请声明来源钻瓜专利网。