[发明专利]一种并行AP传播的XML大数据聚类集成方法有效
| 申请号: | 201410171627.3 | 申请日: | 2014-04-25 |
| 公开(公告)号: | CN103942318B | 公开(公告)日: | 2017-05-17 |
| 发明(设计)人: | 蒋勇 | 申请(专利权)人: | 湖南化工职业技术学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
| 地址: | 412004 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 并行 ap 传播 xml 数据 集成 方法 | ||
技术领域
本发明属于大数据集成方法应用领域,尤其涉及一种并行AP传播的XML大数据聚类集成方法。
背景技术
目前,XML大数据也与其它类型的大数据一样,具有体积浩大、结构复杂、生成速度快、价值巨大但密度低的特点,且数据量从MB到GB、TB、PB直至ZB,此外,它的数据呈现非凸特性且分布很不均匀,数据噪声和孤立点多,而且许多数据以数据流的形式出现在Web中,因此,对这些速度变化快且具有很强的时效性的XML大数据,若采用传统的算法进行聚类集成,则这些集成方法在解决XML大数据集存在明显不足,其主要表现在:(1)占用的存储空间大,预测速度慢,预测效果差;(2)在线机器学习困难,对小规模数据有效,对大规模数据效果差;(3)动态性、实时性差,不能处理流数据;(4)算法由于缺乏先验知识,对XML数据分布的全局特点把握不准,最后导致聚类精度及聚类结果得不到满意的要求。
因此,发明一种并行AP传播的XML大数据聚类集成方法显得非常必要。
发明内容
本发明的目的是基于PC机分布式环境下提供一种并行AP传播的XML大数据聚类集成方法,旨在传统的算法存在着占用的存储空间大,预测速度慢,预测效果差,在线机器学习困难,对小规模数据有效,对大规模数据效果差处理效率低,对XML数据分布的全局特点把握不准的问题。本发明是这样实现的,
一种并行AP传播的XML大数据聚类集成方法的必要技术方案:
本发明是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,
步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理;
步骤二:把抽取的子树中所有关键词看成该数据点特征描述;
步骤三:借鉴聚类集成的基本思想;
步骤四:内联相似度大矩阵分解思想;
步骤五:实现最终的聚类集成。
一种并行AP传播的XML大数据聚类集成方法的次要技术方案:
进一步,在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;
进一步,在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
进一步,在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建K个分类器,K个分类器并行地从n个n×n特征向量空间中随机抽取m样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。
进一步,在步骤四,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;
进一步,在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
本发明提供的并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。
附图说明
图1是本发明提供的并行AP传播的XML大数据聚类集成方法方法流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南化工职业技术学院,未经湖南化工职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410171627.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁性转子轴旋转密封器
- 下一篇:一种稳压单流阀





