[发明专利]基于MPP的并行数据挖掘系统及其实现方法有效

申请号：	201410497377.2	申请日：	2014-09-25
公开（公告）号：	CN104239555B	公开（公告）日：	2017-07-11
发明（设计）人：	卢中亮;黄瑞;李海峰;苏卫卫;刘祺;钱勇;苗润华;李靖;王文青	申请（专利权）人：	天津神舟通用数据技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	天津盛理知识产权代理有限公司12209	代理人：	王利文
地址：	300384 天津市南开***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 mpp 并行数据挖掘系统及其实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘技术领域，尤其是一种基于MPP的并行数据挖掘系统及其实现方法。

背景技术

随着计算机技术的飞速发展，特别是Internet技术的不断应用，人们利用网络信息技术产生和搜集数据的能力有了很.大幅度的提高，数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战，数据挖掘(Data Mining)技术应运而生，使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而，由于数据的爆炸性增长，如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息变得越来越重要。

分布式存储系统是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，难以满足大规模存储应用的需要。分布式存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。分布式计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分再分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。

MPP(Massively Parallel Processing,大规模并行)是指由成千上万个处理器组成的计算机系统。这样的系统是由许多松耦合的处理单元组成的，每个单元内的CPU都有自己私有的资源，如内存，硬盘等。如果处理单元之间需要进行的通信比较少，采用MPP并行是一种较好的选择。在数据挖掘算法中有部分算法是可以数据并行的，这种并行处理单元之间通信较少，因此，比较适合MPP并行模式。MPP并行的最大优势是扩展性较强，可以通过追加并行节点，不断提升计算能力。

当前的多数数据挖掘架构都是基于C/S模式，一次只能执行一个任务，而且很少有数据挖掘系统中的数据挖掘算法实现了并行的方式，即使像Clementine，Enterprise Miner这些业内比较领先的数据挖掘软件也不例外。当数据量特别大的时候，这种模式就会速度特别慢，甚至表现出无能力，即不能进行数据挖掘任务。而目前很多企业由于业务的发展，积累了海量数据，面对这些海量数据，如何利用数据挖掘技术快速有效地从中发现有用的知识，并用到实际业务中，成为了一个迫切需要解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种处理能力强、速度快且效率高的基于MPP的并行数据挖掘系统及其实现方法。

本发明解决现有的技术问题是采取以下技术方案实现的：

一种基于MPP的并行数据挖掘系统，包括一个挖掘引擎节点和多个分布式的挖掘代理节点，所述的挖掘引擎节点包括引擎资源监管模块、任务监管模块、消息服务模块、元数据管理模块、代理资源管理模块、任务调度模块、任务负载均衡模块和计算负载均衡模块；所述的挖掘代理节点包括任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子，所述的任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子依次相连接，该任务解析器与挖掘引擎节点相连接，K均值算法Master算子与分布式数据访问引擎相连接，K均值算法Slaver算子与分布式数据存储节点相连接；

所述挖掘引擎节点根据各挖掘代理节点当前的数据挖掘任务负载情况，将当前数据挖掘任务分配给数据挖掘任务负载较少的挖掘代理节点，将其作为该数据挖掘任务的Master挖掘代理节点；Master挖掘代理节点同分布式数据存储系统或MPP数据库的分布式数据访问引擎进行通信获取数据的分布情况，然后结合当前各挖掘代理节点的计算负载和资源情况，按照该挖掘任务的Master算子，将数据挖掘任务拆分成若干个并行的子任务，采用数据分布的负载均衡及就近挖掘策略向挖掘代理节点分发挖掘任务；每个挖掘代理节点按照分配的子任务执行Slaver算子,每个Slaver算子只进行对其分配到的数据块的处理，处理完成之后向Master挖掘代理节点报告状态和结果。

而且，所述的挖掘引擎节点对挖掘引擎节点以及挖掘代理节点的计算资源进行监管，对消息的发送、接收、解析及分发，对挖掘任务的监管、调度以及负载均衡处理。

而且，所述挖掘引擎节点将消息分成如下类型：耗时的挖掘任务消息、挖掘引擎和挖掘代理监管消息、客户端查询消息、模型的实时调用消息、内部消息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津神舟通用数据技术有限公司，未经天津神舟通用数据技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410497377.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于MPP的并行数据挖掘系统及其实现方法有效

专利文献下载