[发明专利]Hudi运行环境资源优化分配方法及装置有效
申请号: | 202210117140.1 | 申请日: | 2022-02-08 |
公开(公告)号: | CN114153620B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 秦晓宏;黄主斌 | 申请(专利权)人: | 上海柯林布瑞信息技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/182 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hudi 运行 环境 资源 优化 分配 方法 装置 | ||
本申请提供了一种Hudi运行环境资源优化分配方法及装置,包括:启动预设数量的计算引擎会话Spark Session,并对各Spark Session按对应的资源大小进行分类,得到至少两个Spark Session集合,并确定每个Spark Session集合对应的任务数据量范围;若医院的业务系统有增量医疗数据产生,则获取增量医疗数据对应的Hudi表任务所对应的数据量大小,并将Hudi表任务加入任务执行队列;在Hudi表任务处于任务执行队列的头部时,基于Hudi表任务的数据量大小和各Spark Session集合对应的任务数据量范围,确定出目标Spark Session,并利用目标Spark Session执行Hudi表任务,以将增量医疗数据添加至对应的Hudi表中。该方案节约了资源等待时间,同时能够为不同数据量大小的Hudi表任务匹配合适的目标Spark Session,提高了医疗数据存储的实时性。
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种Hudi运行环境资源优化分配方法及装置。
背景技术
随着信息技术的发展,越来越多的医院采用Hudi技术进行医疗数据的存储,为了保证医院患者的正常就诊和治疗,必须保证各业务系统的数据能够实时存储。由于Hudi是基于spark运行的,在将医院的各业务系统的增量数据不断存储至对应的Hudi表中时,需要在每次进行增量数据存储时启动对应的Spark Session,目前的方案大多是根据产生增量数据的业务系统的类型来为对应的Spark Session的分配资源(CPU资源、内存资源等)。而医院对接有多种业务系统,例如:HIS(Hospital Information System,医院信息系统),LIS(Laboratory Information Management System,实验室信息管理系统),RIS(RadiographyInformation System,放射科信息系统)等,每种业务系统的库中动辄上百张表(还不包括从其他医院承接过来的业务系统的表),这些表的数据量差异巨大,例如:医嘱执行表为事实表,其数据量会很大,而科室表是维度表,其数据量相对来说就小很多。如果分配资源较小,会导致Hudi 性能低下,数据存储实时性较低,如果分配资源过大,使得每个SparkSession的进程使用资源较大,Spark Session的进程并发数较小,同样会导致数据存储实时性较低。
同时,Spark Session运行需要进行比较复杂的资源申请,资源申请后需要做容器和服务的初始化,初始化过程速度很慢,会有很长的资源等待时间,频繁的启动停止SparkSession不能让资源高效运行,进而导致在医院的业务系统产生的增量医疗数据较多时,医疗数据存储的实时性较差。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
第一方面,本申请实施例提供了一种Hudi运行环境资源优化分配方法,包括:
在进行医疗数据存储前,启动预设数量的计算引擎会话Spark Session,并对各Spark Session按对应的资源大小进行分类,得到至少两个Spark Session集合,并确定每个Spark Session集合对应的任务数据量范围;
在医院的业务系统有增量医疗数据产生时,将增量医疗数据写入卡夫卡kafka的第一topic,通过流式计算引擎flink消费第一topic得到增量医疗数据,并将增量医疗数据存储至分布式文件存储系统hdfs,并将增量医疗数据的数据表标识和在hdfs中的存储路径写入kafka的第二topic;
通过flink消费第二topic,获取增量医疗数据对应的Hudi表任务所对应的数据量大小,并获取Hudi表任务的优先级得分,基于优先级得分将Hudi表任务加入任务执行队列,Hudi表任务用于指示存储增量医疗数据至对应的Hudi表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海柯林布瑞信息技术有限公司,未经上海柯林布瑞信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210117140.1/2.html,转载请声明来源钻瓜专利网。