[发明专利]一种机器学习系统、一种机器学习参数服务器及实现方法在审
申请号: | 201811563116.0 | 申请日: | 2018-12-20 |
公开(公告)号: | CN111352915A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 贾润莹;蒋丰泽;王锋;王兴达 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/185;G06F16/11 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 系统 参数 服务器 实现 方法 | ||
本发明公开了一种机器学习系统、一种机器学习参数服务器及其实现方法。所述方法包括:接收工作节点发送的数据查询请求;在第一层存储中查询与所述数据查询请求对应的数据;若查询成功,则将查询出的数据返回给所述工作节点;若查询失败,则在第二层存储中查询与所述数据查询请求对应的数据,将查询出的数据保存在所述第一层存储中,以及将查询出的数据返回给所述工作节点。该技术方案通过两层存储的设置,提高了容错性,并且加快了查询速度,在保证稳定性的前提上也确保了训练效率,并且各部分可以在各类开源程序的基础上实现,充分应用了现有技术,并实现了创新。
技术领域
本发明涉及机器学习领域,具体涉及一种机器学习系统、一种机器学习参数服务器及实现方法。
背景技术
在大数据时代,需要处理的数据都是TB级或PB级以上,对于数据常规处理,现有的MapReduce或者Spark(两种分布式计算框架)能够很好的完成任务。但是在机器学习领域,模型的规模也在不断的增大,模型参数的规模可以达到百亿,千亿甚至万亿级别,对现有的机器学习系统都有很大的挑战。
为了解决超大规模参数模型,现在业界流行的方案是采用PS(Parameter Server,参数服务器)架构,参数服务器节点(Server)负责模型的分布式存储,工作节点(Worker)负责分布式计算。工作节点从参数服务器节点拉取模型参数,根据训练数据计算梯度后上报,参数服务器节点将梯度合并至模型,实现模型更新。目前较流行的一些机器学习系统对于MPI(Message-Passing-Interface消息传递接口)架构的容错性较低,是需要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种机器学习系统、一种机器学习参数服务器及其实现方法。
依据本发明的一个方面,提供了一种机器学习参数服务器的实现方法,包括:接收工作节点发送的数据查询请求;在第一层存储中查询与所述数据查询请求对应的数据;若查询成功,则将查询出的数据返回给所述工作节点;若查询失败,则在第二层存储中查询与所述数据查询请求对应的数据,将查询出的数据保存在所述第一层存储中,以及将查询出的数据返回给所述工作节点。
可选地,该方法还包括:预先将与高频特征对应的模型参数保存至第一层存储中,或者,将全部模型参数保存至第一层存储中;其中,所述高频特征是根据对训练数据中各维度特征出现的次数进行统计确定的。
可选地,该方法还包括:通过HazelCast实现基于内存的第一层存储服务,通过Kudu实现基于磁盘的第二层存储服务;所述在第二层存储中查询与所述数据查询请求对应的数据包括:通过HazelCast的load接口调用Kudu的scan接口,查询与所述数据查询请求对应的数据。
可选地,该方法还包括:根据工作节点上传的数据对第一层存储进行更新;周期性地生成持久化存储请求,将相应周期内第一层存储中变化的值更新至第二层存储中。
可选地,该方法还包括:根据所述数据查询请求和/或所述持久化存储请求生成相应的读写任务;将生成的读写任务放入读写任务队列,由与各模型分区对应的消费线程完成相应的读写任务。
可选地,该方法还包括:通过HazelCast实现基于内存的第一层存储服务,通过Kudu实现基于磁盘的第二层存储服务;所述将相应周期内第一层存储中变化的值更新至第二层存储中包括:通过HazelCast的save接口将相应周期内第一层存储中变化的键值对传递给Kudu,使Kudu根据接收到的键值对第二次存储进行更新。
可选地,所述通过HazelCast的save接口将相应周期内第一层存储中变化的键值对传递给Kudu包括:通过HazelCast周期性调用storeAll函数,以通过storeAll函数调用Kudu的Update接口传递所述键值对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811563116.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光电集成器件
- 下一篇:一种超声三维体数据在线显示及分析方法