[发明专利]针对深度学习训练用数据的处理方法、系统及存储介质在审
申请号: | 202110659553.8 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113449876A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 沈彬;张甜田;冯立鹏;王凯歌 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/176;G06F9/455 |
代理公司: | 北京国科程知识产权代理事务所(普通合伙) 11862 | 代理人: | 曹晓斐 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 深度 学习 训练 数据 处理 方法 系统 存储 介质 | ||
本申请公开了一种针对深度学习训练用数据的处理方法、系统及存储介质,属于计算机技术领域。该针对深度学习训练用数据的处理方法包括:提取在云平台中标注数据仓库里包含的原始标注数据;通过插拔连接的预处理模块对原始标注数据进行预处理;将经过预处理得到的数据结果存储到云平台中的共享文件系统,其中,数据结果用于深度学习训练本申请通过插拔的预处理容器模块对数据进行处理,灵活性强,便于扩展;通过共享文件系统的设置,提高数据处理的效率以及数据传输的效率,降低资源损耗。
技术领域
本申请涉及计算机技术领域,特别是一种针对深度学习训练用数据的处理方法、系统及存储介质。
背景技术
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。那么如何快速地处理和提取数据对于提升机器学习训练的效率意义重大。目前在深度学习中对于数据的获取和预处理的方法分为两个阶段:
第一阶段,利用物理服务器或虚拟机,将数据手动拷贝到机器上,通过写预处理脚本的方式针对性的对数据进行处理;当前80%以上的数据获取和预处理都还处于第一阶段,对于资源的消耗大,存在大量的手工操作,并且复用性不高。
第二阶段,利用云计算技术,将数据统一存储到对象存储中,用户使用对象存储的软件开发工具SDK(Software Development Kit),编写数据拉取程序获取数据,对于数据预处理,通过一些平台化的方式提供若干有限的标准化数据预处理方法,用户通过选择相应的方法进行数据处理。目前部分算法的数据处理已经实现了云化、平台化,不过实现方案因每次训练都需要重新通过SDK拉取数据,依然存在效率偏低问题,同时因无法自定义数据预处理模块并复用,从而缺乏灵活性。
对于上述做法,存在大量的重复性手工操作,资源消耗大,数据拉取和处理的效率低,同时缺少灵活性。
发明内容
本申请提供一种针对深度学习训练用数据的处理方法、系统及存储介质,以解决现有算法训练方法中需要重复性手工操作,资源消耗大,并且数据拉取护理的效率低,缺少灵活性的问题。
在本申请的一个技术方案中,提供一种针对深度学习训练用数据的处理方法,包括:提取在云平台中标注数据仓库里包含的原始标注数据;通过插拔连接的预处理模块对原始标注数据进行预处理;将经过预处理得到的数据结果存储到云平台中的共享文件系统,其中,数据结果用于深度学习训练。
在本申请的另一技术方案中,提供一种针对深度学习训练用数据的处理系统,包括:对象存储模块、计算资源集群模块、共享存储模块以及预处理模块,其中,计算资源集群模块,其用于接收数据预处理指令,提取在云平台中标注数据仓库里包含的原始标注数据,并存储到对象存储模块中;预处理模块,其通过插拔连接在处理系统中,用于根据数据预处理指令,对对象存储模块中的原始标注数据进行预处理,并将经过预处理得到的数据结果存储到共享存储模块中。
在本申请的另一技术方案中,提供一种计算机可读存储介质,其中,存储介质中存储有计算机指令,计算机指令被操作以执行方案1中描述的针对深度学习训练用数据的处理方法。
本申请技术方案可以达到的有益效果是:本申请通过可插拔式的预处理模块,可根据具体的算法任务选择合适的预处理模块进行数据处理,灵活性强;另外,通过共享文件系统将原始标注数据的预处理后的数据结果进行存储,使得在进行算法任务时,直接在共享文件系统中调取预处理后的数据结果进行使用,而不必每次均进行数据预处理以及在标注数据仓库中调取相应的数据,降低资源的消耗,提高数据传输的效率和数据处理的效率。
附图说明
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
图1是本申请针对深度学习训练用数据的处理方法的一个实施方式的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110659553.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测试工装
- 下一篇:等离子体处理方法和等离子体处理装置