[发明专利]一种基于云计算的数据挖掘实现方法和系统有效
申请号: | 201210525662.1 | 申请日: | 2012-12-07 |
公开(公告)号: | CN103024027A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 郭常勇;谢朝阳 | 申请(专利权)人: | 中国电信股份有限公司云计算分公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 100093 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 数据 挖掘 实现 方法 系统 | ||
【技术领域】
本发明涉及计算机网络技术领域,特别涉及一种基于云计算的数据挖掘实现方法和系统。
【背景技术】
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是又是潜在有用的信息和知识的过程。随着海量数据不断增长,多元化、个性化的数据挖掘需求越来越强,传统的集中式数据挖掘方式已不适应。
目前,传统的数据挖掘方式主要采用的是本地数据挖掘模式,如SPSS(统计产品与服务解决方案)、SAS(统计分析系统)。然而这种方式对客户来说需要购买硬件、软件,对系统进行安装维护,前期资金投入多,需要专业的软件使用和维护人员,设备闲置时不能充分发挥效用;对服务提供商来说,此方法不能实现多用户的服务需求。
随着云计算时代的到来,云计算因其处理数据能力强、资源虚拟化、可靠性高、通用性强、可扩展性好等特点成为一种解决传统集中式数据挖掘不适应海量数据不断增长的思路,然而如何根据用户业务需要让用户按需、低价和方便快捷地使用上云中的数据挖掘服务却是个难点。
【发明内容】
有鉴于此,本发明提供了一种基于云计算的数据挖掘实现方法和装置,以便于降低用户的成本,满足多用户的服务需求。
具体技术方案如下:
一种基于云计算的数据挖掘实现系统,该系统包括:
服务平台功能模块,用于接收用户的挖掘服务请求以及要分析的数据源;将业务数据交互模块返回的挖掘结果提供给用户;
业务数据交互模块,用于将所述数据源上传至挖掘计算模块的文件系统,并依据所述挖掘服务请求中的挖掘模型信息生成挖掘计算脚本文件;将挖掘计算模块返回的挖掘结果返回给服务平台功能模块;
挖掘计算模块,用于运行所述计算脚本文件对所述要分析的数据源进行数据挖掘,返回挖掘结果给业务交互系统。
根据本发明一优选实施例,所述服务平台功能模块,还用于向用户提供注册平台,获取用户的注册信息,在接收到所述挖掘服务请求后利用注册信息对用户进行鉴权。
根据本发明一优选实施例,所述服务平台功能模块,还用于向用户提供服务平台,该服务平台提供挖掘模型库中的挖掘模型信息供用户选择,依据用户选择的挖掘模型信息得到所述用户的挖掘服务请求;或者,获取用户通过所述服务平台上传的挖掘模型,存入挖掘模型库,依据用户上传的挖掘模型信息得到所述用户的挖掘服务请求。
根据本发明一优选实施例,所述业务数据交互模块,还用于对所述用户上传数据源的权限进行鉴权,如果鉴权通过,则执行将所述数据源上传至挖掘计算模块的文件系统的操作,否则通过所述服务平台功能模块向用户回复拒绝响应。
根据本发明一优选实施例,所述挖掘计算模块在进行所述数据挖掘时,采用map-reduce的方式将所述数据挖掘的任务划分成多个子任务分配给多个处理器执行,整合多个处理器的执行结果得到所述挖掘结果。
根据本发明一优选实施例,所述挖掘计算模块采用Rhipe技术,所述挖掘计算模块的文件系统为分布式文件系统HDFS;
所述挖掘计算模块在所述进行数据挖掘之前将所述要分析的数据源转换为R对象,在所述进行数据挖掘时从安装的R共享库中调用对应的挖掘模型。
一种基于云计算的数据挖掘实现方法,该方法包括:
S1、服务平台功能模块接收用户的挖掘服务请求以及要分析的数据源;
S2、业务数据交互模块将所述数据源上传至挖掘计算模块的文件系统,并依据挖掘服务请求中的挖掘模型信息生成挖掘计算脚本文件;
S3、挖掘计算模块运行所述计算脚本文件对要分析的数据源进行数据挖掘,返回挖掘结果给业务交互系统;
S4、业务交互系统将所述挖掘结果返回给服务平台功能模块,由服务平台功能模块将所述挖掘结果提供给用户。
根据本发明一优选实施例,在步骤S1之前还包括:服务平台功能模块向用户提供注册平台,获取用户的注册信息;
在步骤S1中还包括:在接收到挖掘服务请求后利用所述注册信息对用户进行鉴权。
根据本发明一优选实施例,在步骤S1中,服务平台功能模块向用户提供服务平台,该服务平台提供挖掘模型库中的挖掘模型信息供用户选择,依据用户选择的挖掘模型信息得到所述用户的挖掘服务请求;或者,获取用户通过服务平台上传的挖掘模型,存入挖掘模型库,依据用户上传的挖掘模型信息得到所述用户的挖掘服务请求。
根据本发明一优选实施例,在步骤S2之前还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司云计算分公司,未经中国电信股份有限公司云计算分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210525662.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置