[发明专利]基于频繁关联标签序列的XML结构相似度度量方法有效

申请号：	201110398187.1	申请日：	2011-12-02
公开（公告）号：	CN102521325A	公开（公告）日：	2012-06-27
发明（设计）人：	张利军;李战怀;陈群;李霞	申请（专利权）人：	西北工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西北工业大学专利中心 61204	代理人：	顾潮琪
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于频繁关联标签序列 xml 结构相似度量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据管理技术领域，涉及一种XML文档的结构相似度度量方法，特别是涉及一种利用从XML文档集中挖掘到的频繁关联标签序列作为特征来度量XML文档结构相似度的方法。

背景技术

XML作为互联网上数据表示和数据交换的事实标准，已得到广泛的应用。随着XML文档数量的不断增长，如何有效地对XML数据进行存储、过滤、检索以及管理在数据库和信息检索领域变得越来越重要。许多对XML的操作任务需要度量XML文档之间的相似性，XML文档的相似性度量已经成为许多XML处理技术的基本问题，并被应用于多个领域，比如半结构化数据集成，XML文档的分类/聚类，XML检索等。

与传统的文本文档只包含内容不同，XML文档中包含了层次结构。如何利用包含在其中的结构信息来计算XML文档之间的结构相似度是XML相似度计算中的一个关键问题。针对这个问题研究人员提出了许多不同的方法。其中一些基于路径的方法将XML文档的结构表示为路径的集合，然后利用集合或者向量操作来计算文档之间的结构相似性。例如，考虑图1中的三个XML文档。文献[1]“Joshi，S.，Agrawal，N.，Krishnapuram，R.，Negi，S.：A Bag of Paths Model for Measuring Structural Similarity in Web Documents.In：Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining(SIGKDD).(2003)577-582.”提出的路径包模型(本说明书称其为BOTP模型)中，一个文档的结构被表示为路径的集合，一个路径是其对应的DOM树中从根节点到叶子节点的序列。如图1中的三个文档使用该模型表示如表1中的BOTP列。可以看出，doc1和doc2中的路径“a/b/c”和“a/b”，“a/e/f/g”和“a/h/f/g”都被视为完全不同的路径。事实上，这两组路径都是部分匹配，而且在很大程度上是相似的。另外，路径包模型虽然保留了节点之间的父子关系，但是忽略了其兄弟关系，认为路径之间是相互独立的，没有关系。例如doc1和doc3中的路径“a/b/c”和“a/d”被认为是相互独立的，事实上它们构成兄弟关系，频繁地同时出现在同一个文档中。文献[1]同时提出了另外一种基于XPath的路径包模型(称为BOXP模型)。该模型虽然包含了部分节点之间的兄弟关系，但并不完全。文献[2]“Leung，H.P.，Chung，F.L.，Chan，S.C.，Luk，R.：XML Document Clustering Using Common XPath.In：Proceedings of the International Workshop on Challenges in Web Information Retrieval and Integration.(2005)91-96.”从文档集中挖掘频繁的XPath，称为commonXPath，然后将XML文档表示为由commonXPath构成的向量。例如，设最小支持度为60％，则图1中的三个文档使用该模型的可表示如表1中第3列。尽管doc1和doc2中的路径“a/e/f/g”和“a/h/f/g”通过commonXPath：“a/*/f/g”被认为是相似的，但doc3中的路径“a/f/g”仍被认为不相似。事实上“a/e/f/g”，“a/h/f/g”和“a/f/g”这三个路径都是非常相似的。另外，文献[2]在通过向量计算相似度时同样认为路径之间是独立的。例如，三个文档都包含路径“a/b”和“a/d”，并构成兄弟关系，但文献[2]忽略了这种关系。文献[3]“Rafiei，D.，Moise，D.L.，Sun，D.：Finding Syntactic Similarities Between XML Documents.In：Proceedings of the 17th International Conference on Database and Expert Systems Applications(DEXA).(2006)512-516.”除了把从根节点到叶子节点的全路径作为特征外，还考虑了全路径的子路径，如图1中的三个文档使用该模型的可表示如表1中的第四列，这种方法在计算相似度时仍然忽略了节点之间的兄弟关系。

表1 XML文档的不同的路径表示

综上所述，现有的基于路径的计算XML文档结构相似度方法存在以下两个问题：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110398187.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种稀疏MIMO平面阵列雷达天线构建方法
下一篇：一种具有高储能密度的锆酸铅基反铁电厚膜及制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于频繁关联标签序列的XML结构相似度度量方法有效

专利文献下载