[发明专利]一种面向云计算的基于定制化组件的流式机器学习方法与软件系统在审

专利信息
申请号: 201711191522.4 申请日: 2017-11-24
公开(公告)号: CN107944565A 公开(公告)日: 2018-04-20
发明(设计)人: 刘延新;周红卫;李守超;王钟沛 申请(专利权)人: 江苏润和软件股份有限公司
主分类号: G06N99/00 分类号: G06N99/00;G06F8/20
代理公司: 暂无信息 代理人: 暂无信息
地址: 210041 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 计算 基于 定制 组件 机器 学习方法 软件 系统
【说明书】:

技术领域

发明涉及一种面向云计算的基于定制化组件的流式机器学习方法与软件系统,属于软件技术领域。

背景技术

信息技术的发展日新月益,购物、医疗等各种行业陆续开始电子化改革的进程。以互联网为中心,大量的数据不断积累,蕴含着宝贵的商业信息。早于上个世纪90年代,工业界就在不断的尝试发掘数据中的规律,并应用于商业决策中。例如在电子商务行业,淘宝通过对海量交易数据进行学习,为用户提供专业的个性化推荐(周涛,个性化推荐的十大挑战,中国计算机学会通讯,2012,8(7):48-61);在广告行业,网络广告通过追踪用户的点击预测用户喜好,提升用户体验;Twitter和Facebook公司也在发展自己的大规模机器学习系统(LIN J, KOLCZ A, Large-scale machine learning at twitter, the Proceedings of 2012 ACM SIGMOD International Conference on Management of Data)。

机器学习是近几十年新兴起的融合了多种领域知识的学科,涉及数理统计学、凸优化等多门学科,通过不断的对数据进行训练来让计算机寻找到数据的规律,这种训练方式又叫做“学习”。机器学习算法是为了达到让机器“学习”的目的,自动分析数据,寻找到规律,并利用这些规律对未来进行估计的一类算法。目前,机器学习包括两种工作:设计机器学习算法,利用各种不同的最优策略以及寻优算法优化模型,这是学术界普遍在做的研究;应用学习算法到真实数据上,确定正确的模型集合,寻找最优的模型,学习数据的规律,对数据进行预测。后者更多的存在于工业界,企业通过数据中的信息模式进行商业决策、提高用户体验。但是由于目前通用的快速机器学习分析工具的缺少,每个企业都要开发同样功能的数据分析应用,造成重复开发多,工作量巨大。

Azure Machine Learning是微软在自有的云平台产品Azure下开发的机器学习分析平台,提供大量的通用的机器学习分析算法(Azure ML. https://azure.microsoft.com/en-us/services/machine-learning)。但Azure ML只能部署在微软自己的云计算平台上,在Azure上设计完成的分析方法无法迁移到其它的云平台(如Amazon EC2)上使用,增加了与其它分析工具共享协同的难度。Weka集成了大量机器学习算法用于各种数据分析任务,包括数据预处理、分类、回归等,并且提供交互式的可视化效果(范多锋,徐俊刚,大数据量下的Apriori改进算法及在weka平台的实现,电子技术,2012,39(7):1-4)。Scikit-learn是python环境下流行的模块化机器学习类库,提出了许多针对机器学习功能的代码设计的创新,如使用接口而不是继承的代码设计方法,以及方便分析人员调用、简化的API(PEDREGOSA F,VAROQUAUX G,GRAMFORT A,Scikit-learn: Machine learning in Python,The Journal of Machine Learning Research,2011)Spark MLlib是Spark自带的机器学习类库,包括大量的特征处理以及模型拟合方法,能与Spark分布式系统高度融合,运行高效率的大规模机器学习分析应用。

为了分析处理文本、图像、多媒体以及其它专业领域的非结构化数据,多种多样的模型不断出现,造成模型的假设空间很大。比如说,对文档进行相似性搜索,有上百维的特征进行选择,可以使用多种分类模型进行拟合。机器学习是在大量不同的假设模型中进行尝试、寻找最优模型的过程,所以需要机器学习分析工具提供多种常用的分析方法、能够快速添加新的方法、方便易用。另一方面,机器学习分析人员需要专业的领域知识。例如,使用机器学习分析图像,需要经过灰度化、二值化、标准化、图像旋转等特征处理过程,每一步都会影响最终模型的拟合质量。机器学习分析工具可以帮助分析人员处理数据存储等计算机问题,令其可以专注于理解数据、处理数据,得到更好的模型。

为了解决上述的需求,本发明设计了基于Spark的流程化机器学习分析系统,在技术上面临如下问题:流程是一种常用的数据分析方式,但是相对于科学分析或数据挖掘,Spark上的机器学习流程并没有直接可供参考的模型,需要研究调查;系统需要根据现有的机器学习类库快速地添加算法组件,所以需要组件模型表示机器学习算法,并解决机器学习类库向组件模型的自动转换问题;执行流程时需要频繁地读写中间数据,如何在内存中共享中间数据以提升流程执行的性能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711191522.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top