[发明专利]一种数据获取方法、装置、电子设备及存储介质在审
申请号: | 202010030600.8 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111258965A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 余虹建;李锦丰 | 申请(专利权)人: | 北京猎豹移动科技有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 祁献民 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 获取 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开一种数据获取方法、装置、电子设备及存储介质,涉及计算机技术领域,能够有效提高模型训练中训练数据的获取速度。所述数据获取方法,包括:确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。本发明适用于机器学习的模型训练中。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据获取方法、装置、电子设备及存储介质。
背景技术
近年来,人工智能技术在产业和生活中得到了越来越广泛的应用。机器学习作为人工智能领域的一个重要分支,能够通过大量的训练数据,得到较为理想的数学模型,从而模拟人的思维。
然而,由于模型训练所需的数据量巨大,常常是千万级的文件数量,训练数据的读取速度成为影响模型训练效率的重要因素。
对于模型训练中,训练数据的读取速度较慢的问题,相关领域尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例提供一种数据获取方法、装置、电子设备及存储介质,能够有效提高模型训练中训练数据的获取速度。
第一方面,本发明实施例提供一种数据获取方法,包括:
确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;
在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;
在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。
可选的,所述预设策略包括:
将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件;
或者,
根据所述训练数据集中各文件的文件大小以及所述内存剩余空间,确定所述目标文件,以使所述目标文件的数量大于第二阈值,和/或以使所述目标文件保留在内核的页缓存中后,所述内存剩余空间小于第三阈值。
可选的,所述在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中包括:
从所述训练数据集中读取第一文件;
确定所述第一文件是否为首次读取的所述目标文件;
在所述第一文件为首次读取的所述目标文件的情况下,为所述第一文件添加预设标记,以使虚拟文件系统VFS根据所述预设标记,将所述第一文件保留在内核的页缓存中。
可选的,所述将所述目标文件保留在内核的页缓存中之后,所述方法还包括:
接收从所述训练数据集中读取第二文件的指令;
在内核的页缓存中查找所述第二文件;
在查找到所述第二文件的情况下,从所述内核的页缓存中获取所述第二文件,以利用所述第二文件进行模型训练;
在未查找到所述第二文件的情况下,从远端服务器获取所述第二文件,以利用所述第二文件进行模型训练。
可选的,所述方法还包括:
将所述训练数据集缓存在本地硬盘;
在未查找到所述第二文件的情况下,从本地硬盘获取所述第二文件,以利用所述第二文件进行模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猎豹移动科技有限公司,未经北京猎豹移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010030600.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置