[发明专利]数据加载方法、装置、电子设备及存储介质在审
申请号: | 201910551038.0 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110427222A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 舒承椿 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06N3/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李欣 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征信息 训练数据 编码类型 数据加载 加载 存储介质 电子设备 特征抽取 算子 计算机技术领域 原始数据集 配置信息 数据流 复杂度 解析 样本 学习 | ||
本公开是关于一种数据加载方法、装置、电子设备及存储介质,涉及计算机技术领域,用以解决采用复杂度较高的OP算子进行数据加载时,训练数据加载较慢的问题,本公开方法包括:在准备训练数据时,根据特征抽取配置信息从用于训练深度学习模型的原始数据集包含的至少一个样本中确定至少一个特征信息;根据至少一个特征信息的编码类型对至少一个特征信息进行编码;在加载训练数据时,通过对编码后的特征信息进行解析确定特征信息的编码类型,并根据编码类型对特征信息进行标记;根据标记后的特征信息生成用于训练深度学习模型的数据流。由于本公开在训练数据加载前完成了训练数据的特征抽取,不依赖OP算子,操作简单。
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据加载方法、装置、电子设备及存储介质。
背景技术
深度学习模型训过程分为四个相互关联的阶段:训练数据集准备、训练数据集加载、模型训练和模型保存。其中,训练数据集准备包括数据清洗、对齐、过滤和变换;训练数据加载为模型训练程序直接提供数据流;模型训练通常采用GPU(Graphics ProcessingUnit,图形处理器)和FPGA(Field Programmable Gate Array,现场可编程门阵列)等硬件加速训练;最后模型训练最后产生最优参数集后,并把结果保存在磁盘或者分布文件系统中,以用于提供给后续的在线预测服务。
当前训练数据加载技术的方案之一,以tfrecord+queue(队列)方式为例,它是tensorflow系统提供的相对feed_dict方式IO(Input/Output,输入/输出)吞吐更高的训练数据加载方式。如图1所示,采用该方式,用户首先把原始数据集(例如Imagenet图片分类数据集)转化成二进制的tfrecord格式;然后训练加载程序使用FIFO Queue(First in Firstout Queue,先入先出队列)等队列技术多线程读取tfrecord数据,通过IO OP(operation,操作)的方式给模型训练程序喂数据。但是在训练数据加载过程中,对训练数据进行特征抽取是采用OP算子实现。该方式需要复杂的编写过程得到OP算子,使得OP算子的复杂度较高,在进行特征抽取时增加了计算复杂度和训练数据加载的时间。
综上所述,相关技术中训练数据加载时采用的OP算子需要复杂的编写过程,复杂度较高,增加了计算复杂度和训练数据加载的时间。
发明内容
本公开提供一种数据加载方法、装置及系统,以至少解决相关技术训练数据加载时采用的OP算子需要复杂的编写过程,复杂度较高,增加了计算复杂度和训练数据加载时间的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种数据加载方法,包括:
在准备训练数据时,根据特征抽取配置信息从用于训练深度学习模型的原始数据集包含的至少一个样本中确定至少一个特征信息;
根据至少一个所述特征信息的编码类型对至少一个所述特征信息进行编码;
在加载训练数据时,通过对编码后的特征信息进行解析确定所述特征信息的编码类型,并根据所述编码类型对所述特征信息进行标记;
根据标记后的特征信息生成用于训练深度学习模型的数据流。
在一种可能的实现方式中,所述根据特征抽取配置信息从用于训练深度学习模型的原始数据集包含的至少一个样本中确定至少一个特征信息步骤包括:
将所述原始数据集中的数据划分为多份数据,其中每份数据包含至少一个样本;
并行对每份数据执行如下处理过程:
根据预先配置的特征抽取信息从所述一份数据包含的至少一个样本中选取至少一个特征信息,并将由同一份数据选取出的特征信息作为一个特征集合。
在一种可能的实现方式中,所述根据至少一个所述特征信息的编码类型对至少一个所述特征信息进行编码步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910551038.0/2.html,转载请声明来源钻瓜专利网。