[发明专利]机器学习方法及系统在审
申请号: | 201710025563.X | 申请日: | 2017-01-13 |
公开(公告)号: | CN108304934A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 张成 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06K9/62 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;高青 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器学习 机器学习系统 计算效率 特征数据 稀疏矩阵 资源占用 数据量 存储 转换 | ||
本实施例中提供的机器学习方法,将特征数据转换为libSVM格式后进行机器学习,由于libSVM格式的数据在机器学习以稀疏矩阵的形式存储和计算,由此机器训练时需要处理的数据量大大减少,从而减少了资源占用,并进一步提高计算效率。本发明实施例同时提供一种机器学习系统。
技术领域
本发明涉及计算机领域,具体涉及一种机器学习方法及系统。
背景技术
随着大数据时代的到来面向大数据场景的各种解决方案也应运而生,其中使用机器学习方法实现海量数据挖掘是主要的方案,它主要用于从数据中学习数据的规律,并产生模型,应用模型到场景中进行预测。机器学习的优劣依赖于特征数据的选取以及加工,在传统行业(如电力,石油等)中的机器学习领域中所面对的数据虽然是企业几十年积累得来,但数据的量级也只有百万级,因此进行特征数据的选取与加工时无论何种方式都能够取得不错的效果。然而在电子商务这种新兴互联网行业中,往往每天就能够产生上亿级别的数据。当机器学习遇到上亿级别的海量数据时,如何做好特征数据便成了一个重要的议题。
现有的机器学习系统如图1所示,包括获取模块102和生成模块103。获取模块102为特征数据的采集模块,通过数据提取脚本1021从各个不同的数据源抓取数据存储到大数据文件系统1022,接着从大数据文件系统1022中提取数据整合后生成数据文件1023,并将数据文件1023提交到模块103。生成模块103基于多个数据文件1023进行机器学习,生成模型文件1033。
但在实际应用中发现,现有的机器学习系统存在一些缺点,例如,数据文件1023虽然经过初步整合,但数据量依然很大,从而导致模块103进行机器学习的时候需要占用较多的资源,这直接影响了机器学习的效率。
发明内容
有鉴于此,本发明提供一种机器学习方法及系统,将特征数据转换为libSVM格式后进行机器学习,解决了机器学习中由于资源占用过多影响学习效率的问题。
根据本发明实施例的第一方面,本发明实施例提供一种机器学习方法,包括:获取特征数据;将所述特征数据转换为libSVM格式的特征数据;以及基于所述libSVM格式的特征数据生成机器学习模型。
优选地,所述将所述特征数据转换为libSVM格式的特征数据包括:根据预定义的转换规则,将所述特征数据中的每个值均转换为libSVM格式,从而将将所述特征数据转换为libSVM格式的特征数据。
优选地,还包括:在所述基于libSVM格式的特征数据生成机器学习模型之前,将所述libSVM格式的特征数据划分为训练数据和测试数据;
则所述基于所述libSVM格式的特征数据生成机器学习模型包括:
基于所述训练数据进行机器训练,生成机器学习模型;
基于所述测试数据测试所述机器学习模型,以确定所述机器学习模型是否达到预设要求。
优选地,还包括:只存储达到预设要求的所述机器学习模型。
优选地,还包括:在所述将所述特征数据转换为libSVM格式的特征数据之前,将所述特征数据进行数据清洗和加工。
根据本发明实施例的第二方面,本发明实施例提供一种机器学习系统,包括:获取模块,用于获取特征数据;转换模块,用于将所述特征数据转换为libSVM格式的特征数据;生成模块,用于基于所述libSVM格式的特征数据生成机器学习模型。
优选地,所述转换模块包括:根据预定义的转换规则,将所述特征数据中的每个值均转换为libSVM格式,从而将将所述样本文件转换为libSVM格式的数据文件。
优选地,还包括:划分模块,用于将所述libSVM格式的特征数据划分为训练数据和测试数据;
则所述生成模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710025563.X/2.html,转载请声明来源钻瓜专利网。