[发明专利]Hudi运行环境资源优化分配方法及装置有效

专利信息
申请号: 202210117140.1 申请日: 2022-02-08
公开(公告)号: CN114153620B 公开(公告)日: 2022-05-24
发明(设计)人: 秦晓宏;黄主斌 申请(专利权)人: 上海柯林布瑞信息技术有限公司
主分类号: G06F9/50 分类号: G06F9/50;G06F16/182
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 何明伦
地址: 200233 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: hudi 运行 环境 资源 优化 分配 方法 装置
【说明书】:

本申请提供了一种Hudi运行环境资源优化分配方法及装置,包括:启动预设数量的计算引擎会话Spark Session,并对各Spark Session按对应的资源大小进行分类,得到至少两个Spark Session集合,并确定每个Spark Session集合对应的任务数据量范围;若医院的业务系统有增量医疗数据产生,则获取增量医疗数据对应的Hudi表任务所对应的数据量大小,并将Hudi表任务加入任务执行队列;在Hudi表任务处于任务执行队列的头部时,基于Hudi表任务的数据量大小和各Spark Session集合对应的任务数据量范围,确定出目标Spark Session,并利用目标Spark Session执行Hudi表任务,以将增量医疗数据添加至对应的Hudi表中。该方案节约了资源等待时间,同时能够为不同数据量大小的Hudi表任务匹配合适的目标Spark Session,提高了医疗数据存储的实时性。

技术领域

本申请涉及计算机技术领域,具体而言,本申请涉及一种Hudi运行环境资源优化分配方法及装置。

背景技术

随着信息技术的发展,越来越多的医院采用Hudi技术进行医疗数据的存储,为了保证医院患者的正常就诊和治疗,必须保证各业务系统的数据能够实时存储。由于Hudi是基于spark运行的,在将医院的各业务系统的增量数据不断存储至对应的Hudi表中时,需要在每次进行增量数据存储时启动对应的Spark Session,目前的方案大多是根据产生增量数据的业务系统的类型来为对应的Spark Session的分配资源(CPU资源、内存资源等)。而医院对接有多种业务系统,例如:HIS(Hospital Information System,医院信息系统),LIS(Laboratory Information Management System,实验室信息管理系统),RIS(RadiographyInformation System,放射科信息系统)等,每种业务系统的库中动辄上百张表(还不包括从其他医院承接过来的业务系统的表),这些表的数据量差异巨大,例如:医嘱执行表为事实表,其数据量会很大,而科室表是维度表,其数据量相对来说就小很多。如果分配资源较小,会导致Hudi 性能低下,数据存储实时性较低,如果分配资源过大,使得每个SparkSession的进程使用资源较大,Spark Session的进程并发数较小,同样会导致数据存储实时性较低。

同时,Spark Session运行需要进行比较复杂的资源申请,资源申请后需要做容器和服务的初始化,初始化过程速度很慢,会有很长的资源等待时间,频繁的启动停止SparkSession不能让资源高效运行,进而导致在医院的业务系统产生的增量医疗数据较多时,医疗数据存储的实时性较差。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:

第一方面,本申请实施例提供了一种Hudi运行环境资源优化分配方法,包括:

在进行医疗数据存储前,启动预设数量的计算引擎会话Spark Session,并对各Spark Session按对应的资源大小进行分类,得到至少两个Spark Session集合,并确定每个Spark Session集合对应的任务数据量范围;

在医院的业务系统有增量医疗数据产生时,将增量医疗数据写入卡夫卡kafka的第一topic,通过流式计算引擎flink消费第一topic得到增量医疗数据,并将增量医疗数据存储至分布式文件存储系统hdfs,并将增量医疗数据的数据表标识和在hdfs中的存储路径写入kafka的第二topic;

通过flink消费第二topic,获取增量医疗数据对应的Hudi表任务所对应的数据量大小,并获取Hudi表任务的优先级得分,基于优先级得分将Hudi表任务加入任务执行队列,Hudi表任务用于指示存储增量医疗数据至对应的Hudi表;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海柯林布瑞信息技术有限公司,未经上海柯林布瑞信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210117140.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top