[发明专利]一种并行AP传播的XML大数据聚类集成方法有效

申请号：	201410171627.3	申请日：	2014-04-25
公开（公告）号：	CN103942318B	公开（公告）日：	2017-05-17
发明（设计）人：	蒋勇	申请（专利权）人：	湖南化工职业技术学院
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	北京科亿知识产权代理事务所(普通合伙)11350	代理人：	汤东凤
地址：	412004 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种并行AP传播的XML大数据聚类集成方法，包括，对每一个XML大数据进行清洗、划分和抽取等预处理；把抽取的子树中所有关键词看成该数据点特征描述；借鉴聚类集成的基本思想；内联相似度大矩阵分解思想；实现最终的聚类集成。本发明通过建立随机子空间分类器并并行随机抽取子树来扩大聚类成员的差异性、提高聚类的性能；引入消歧处理，消除了每个子树中因语义相关环境与内容不一致所引起的歧义难题，同时综合语义相似度与路径相似度，解决了XML文档相似度计算不准确对初始聚类结果的影响；利用系统能量理论，改进了AP算法的归属度矩阵和吸收矩阵的迭代式，实现了XML大数据的聚类集成，提高了聚类集成方法效率。
搜索关键词：	一种并行 ap 传播 xml 数据集成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种并行AP传播的XML大数据聚类集成方法，其特征在于：该并行AP传播的XML大数据聚类集成方法包括以下步骤：步骤一：对每一个XML大数据进行清洗、划分和抽取预处理；步骤二：把抽取的子树中所有关键词看成该XML大数据的特征描述；步骤三：借鉴聚类集成的基本思想，用随机子空间分类器作为基聚类器构建K个分类器，K个分类器并行地从n个n×n特征向量空间中随机抽取m个样本数据来进行训练以求得分类，方法是对新样本集建立一个无向图，每个样本点是图的一个顶点，图的边是顶点间的连线，它表示文档之间的相似度，相似度采用标记语义树的方法求得，并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径，路径的划分采用K‑邻近法，这样把划分的每一条路径组成一个类别，所有不同的划分路径组成K个初始分类；步骤四：从初始的簇集结果出发，按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵，通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入；步骤五：通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南化工职业技术学院，未经湖南化工职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410171627.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种并行AP传播的XML大数据聚类集成方法有效

专利文献下载