[发明专利]一种基于weka接口的分布式机器学习方法有效
| 申请号: | 201610004032.8 | 申请日: | 2016-01-04 |
| 公开(公告)号: | CN105677615B | 公开(公告)日: | 2018-11-23 |
| 发明(设计)人: | 崔宝江;石佩林;张晓玮;田进山 | 申请(专利权)人: | 北京邮电大学;北京奇虎科技有限公司 |
| 主分类号: | G06F15/18 | 分类号: | G06F15/18 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 姜荣丽 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 weka 接口 分布式 机器 学习方法 | ||
本发明公开了一种基于weka接口的分布式机器学习方法及其实现装置,属于互联网技术领域。所述方法包括数据预处理、特征提取和weka格式文件的本地训练,最后云计算平台进行线上海量数据分布式测试,生成最终检测结果。所述的实现装置包括解析模块、训练模块和测试模块。所述的解析模块包括数据预处理子模块和特征提取子模块。本发明采用机器学习分布式处理,缩短了整个机器学习过程的时间;扩展了weka的应用范围,实现了从单机模式到分布式模式的转变;本发明将机器学习过程和扩展到分布式模式的weka巧妙结合,达到良好的机器学习的效果。
技术领域
本发明属于互联网技术领域,具体涉及一种基于weka接口的分布式机器学习的方法。
背景技术
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识。从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题。近几十年来,机器学习和数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究。但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,海量的数据造成了在机器学习和数据挖掘过程的时间相当长,又由于weka是基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件,集合了大部分机器学习的算法,如分类、回归、聚类、关联规则等。大数据的爆炸式增长考验着weka这一分析工具的处理能力。Hadoop框架等新兴技术则全面展示了捕获、管理和分析大数据的全新方法。大数据挑战与新技术的结合带来了标志性的转变,从而推动企业重新审视他们的IT基础设施和分析能力。
Hadoop框架使用一个简单的编程模型,以支持在计算机集群上对大数据集进行分布式处理。其完整的技术堆栈包含了通用实用程序、一个分布式文件系统、分析和数据存储平台以及一个用于管理分布式处理、并行计算、工作流程与配置管理的应用层。除了提供高可用性外,Hadoop框架还能比传统方法更为经济高效地处理大型的、复杂的或非结构化的数据集,可带来出色的可扩展性与速度。MapReduce是Hadoop框架中的软件编程框架,能够简化大型数据集的处理工作,并为编程人员在计算机集群中定义和协调复杂的处理任务提供了一种通用方法。MapReduce应用程序通过安排任务、监控活动和重新执行失败的任务来协调集群节点的处理任务。输入和输出信息均存储在Hadoop分布式文件系统(HadoopDistributed File System,简称HDFS)中。Hadoop分布式文件系统通常在相同的节点上处理和存储数据,从而能够更高效地在数据驻留的节点上安排任务,并在节点间实现更高的聚合带宽。
面对海量数据,缩短机器学习和数据挖掘的训练和测试的时间,尽快输出结果成为如今的热点问题。
发明内容
目前的运用weka进行机器学习还处于小吞吐量的阶段,面对TB级别的海量数据表现出数据吞吐量不够,运行时间长等缺陷,基于机器学习的数据分析已经进入大数据时代,所以本发明针对以上情况设计了一种基于weka接口的分布式机器学习方法。
一种基于weka接口的分布式机器学习方法,包括如下步骤:
第一步,数据预处理:web日志文件被切分成n个小文件,提取出统一资源标识符,对统一资源标识符进行包括静态文件过滤、大写转小写,将连续的斜线”/”转换为一个斜线以及解码操作。
第二步,特征提取。
对步骤一中预处理后的uri采取分割取字段、根据uri的组成类型、是否含特殊字符、长度、关键字出现个数和一定规则的权值计算得出所要提取的21个特征,以向量的形式输出特征向量;并对特征向量进行量化和合并处理,生成结果文件。
第三步,weka格式文件的本地训练。
本地训练时调用weka接口,运用weka接口里面已封装好的随机森林算法,生成模型文件RandomForest.model,上传到云计算平台。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京奇虎科技有限公司,未经北京邮电大学;北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610004032.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多层级汇总统计报表协同填报处理方法
- 下一篇:一种控制方法及电子设备





