[发明专利]一种基于AI训练平台的海量文件检索方法、装置及设备有效

专利信息
申请号: 202010988313.8 申请日: 2020-09-18
公开(公告)号: CN111949610B 公开(公告)日: 2022-12-23
发明(设计)人: 姬贵阳 申请(专利权)人: 苏州浪潮智能科技有限公司
主分类号: G06F16/14 分类号: G06F16/14;G06F16/13
代理公司: 济南舜源专利事务所有限公司 37205 代理人: 张营磊
地址: 215100 江苏省苏州市吴*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ai 训练 平台 海量 文件 检索 方法 装置 设备
【说明书】:

发明提供一种基于AI训练平台的海量文件检索方法、装置及设备,所述方法:AI训练平台获取用户下发的检索任务;AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。本发明提供利用检索线程流控制检索过程业务逻辑,防止AI训练平台长时间占用服务器资源的CPU,同时深度优先遍历与二分查找方式结合提高了检索效率,避免单独使用深度优先遍历,而文件靠后的检索时间很长的缺陷,缩短了AI训练平台的训练时间。

技术领域

本发明属于文件检索技术领域,具体涉及一种基于AI训练平台的海量文件检索方法、装置及设备。

背景技术

AI训练平台,即人工智能训练平台,管理并调度CPU和GPU等资源,模型训练,任务管理的平台。

随着人工智能相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高,AI训练平台有效解决了企业或科研机构对计算力的要求,AI训练平台的一项重要的也是最基本的功能就是文件的相关操作,如何在海量的文件中检索出有效信息,成为算法研究人员的常用基础功能,在数据集中或者在用户目录下进行具体文件以及模糊文件的检索,海量文件检索的性能关乎于AI训练平台使用研究人员的工作效率,如何提升检索性能是亟需解决的问题。

目前涉及文件检索的现有技术主要用于各个系统的文件管理等,文件数量大小与AI训练平台的文件数量级别差别很大,而且现有技术也无外乎循环递归遍历所有文件,进行模糊匹配比对;利用操作系统linux的相关命令find进行模糊匹配查找;再者搭建文件分布式存储进行大规模专门的对文件进行管理,其性能好坏依赖于大量硬件等高配置的设备。这些技术用于AI训练平台显得非常落后,其没有非常合适的技术应用场景解决AI训练平台文件的检索功能。

同时循环遍历所有文件进行模糊匹配比对,不仅耗时非常之长,而且在底层系统中占有非常多的系统的资源,包含CPU等,首先对用户使用体验来说非常差,等待的时间非常长,如果文件数据量达到T级别,那等待的时间让使用人员崩溃;其次消耗非常多的系统资源,对系统平台其他业务的影响非常大,最危险的可能造成系统崩溃的情况。部分不考虑系统性能的检索,例如find模糊查找,等待的时间比循环递归遍历还要慢很久,不仅不释放当前占用的资源,甚至会造成底层资源的进程阻塞等。

现有技术也存在海量文件的检索,但是其做法对业务非常专一,即只针对文件的操作,一般不会涉及其他的业务功能,此现有技术依靠太多硬件设备等高配置资源,搭建分布式文件管理平台进行分布式检索查找,这类技术只适合解决业务单一,对AI训练平台的业务支持非常低,甚至不可取,造成资源的浪费。

此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种基于AI训练平台的海量文件检索方法、装置及设备,是非常有必要的。

发明内容

针对现有技术的上述现有检索的遍历方式、文件管理方式以及仅支持文件操作的方式不适合AI训练平台,造成资源浪费的缺陷,本发明提供一种基于AI训练平台的海量文件检索方法、装置及设备,以解决上述技术问题。

第一方面,本发明提供一种基于AI训练平台的海量文件检索方法,包括如下步骤:

S1.AI训练平台获取用户下发的检索任务;

S2.AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;

S3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。

进一步地,步骤S1具体步骤如下:

S11.AI训练平台获取用户登录的令牌;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010988313.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top