[发明专利]基于Hadoop平台的Web数据挖掘系统在审
申请号: | 201210060688.3 | 申请日: | 2012-03-09 |
公开(公告)号: | CN103309867A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 黄玉明;李伟 | 申请(专利权)人: | 句容智恒安全设备有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212400 江苏省镇江市句容市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明基于Hadoop平台的Web数据挖掘系统,涉及数据挖掘系统。该系统包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;所述的业务应用层包括:业务响应模块和工作流模块;所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块。本发明需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。 | ||
搜索关键词: | 基于 hadoop 平台 web 数据 挖掘 系统 | ||
【主权项】:
一种基于Hadoop平台的web数据挖掘系统,包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;所述的业务应用层包括:业务响应模块和工作流模块;所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块;在上述用户交互层中:用户管理模块,其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理;业务模块,其用于提交细粒度的用户业务需求;展示模块,其用于对业务结果的查看、分析和保存;在上述的业务应用层中:业务响应模块,其用于响应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务;工作流模块,其用于对业务状态进行监控、管理,和将具体的信息参数返回给业务响应模块;在上述的Web数据挖掘平台层中:数据加载模块,其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中;结果存储模块,其用于存放挖掘现在产生或者历史产生的各种模式;模式评估模块,其用于对产生的模式进行评估;并行ETL模块,其用于对数据进行预处理,输入的数据来自于HDFS文件中,并将处理结果也放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载;并行数据挖掘算法模块,其用于为数据挖掘提供并行算法,包含一个基于HADOOP进行并行数据挖掘算法的库;在上述的分布式存储计算层中:HDFS模块,其用于提供各种访问接口,包括API以及各种操作命令,实现海量web数据的分布式存储;MapReduce模块,其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于句容智恒安全设备有限公司,未经句容智恒安全设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210060688.3/,转载请声明来源钻瓜专利网。