[发明专利]数据处理方法、设备及存储介质在审
申请号: | 202210096168.1 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114489985A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 陈壮豪 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/54;G06F9/50;G06F9/455;G06F16/23;G06F16/27 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 310012 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 存储 介质 | ||
本申请实施例提供一种数据处理方法、设备及存储介质。在数据处理方法中,已创建的目标作业实例可动态加载一个或者多个数据处理模型的元数据,并根据动态加载到的元数据运行新增的一个或者多个数据处理模型。在运行新增的数据处理模型后,可根据该新增的数据处理模型的计算规则,对当前监听的数据源中的数据进行处理。在这种实施方式中,一方面,作业实例可动态加载数据处理模型,无需在提交作业时对数据处理模型进行定制化开发,降低了开发成本;另一方面,一个作业实例可支持一个或者多个数据处理模型的运行操作,实现了资源的共享,极大提升了资源的利用率。
技术领域
本申请涉及数据计算技术领域,尤其涉及一种数据处理方法、设备及存储介质。
背景技术
流式处理(streaming process)是一种对无界数据或事件的连续处理方式,流式处理的过程可采用有向无环图(Directed Acyclic Graph,DAG)进行描述。在DAG中,每条边可表示数据或事件流,每个顶点可表示一个数据处理模型。数据处理模型可按照设定的规则进行数据处理。
在现有技术中,基于流式数据处理框架进行流式数据处理时,可向流式数据处理框架提交数据处理模型对应的作业任务。流式数据处理框架可利用资源创建对应的作业实例,以执行数据处理模型对应的数据处理任务。但是,随着数据处理模型的数量增长,作业实例的数量也随之增长,大量的作业实例将占用大量的资源。因此,有待提出一种新的解决方案。
发明内容
本申请的多个方面提供一种数据处理方法、设备及存储介质,用以实现多个模型对作业实例进行共享,提升资源的利用率。
本申请实施例提供一种数据处理方法,包括:响应模型加载事件,通过目标作业实例,从目标存储空间加载至少一个数据处理模型的元数据;通过所述目标作业实例,分别根据所述至少一个数据处理模型的元数据,运行所述至少一个数据处理模型;通过所述目标作业实例,根据所述至少一个数据处理模型各自的计算规则,对当前监听的第一数据源中的数据分别进行处理。
进一步可选地,通过目标作业实例,从指定存储空间加载至少一个数据处理模型的模型元数据之前,还包括:接收模型提交请求;所述模型提交请求携带新增的数据处理模型的模型元数据以及所述目标作业实例的实例标识;将所述新增的数据处理模型的模型元数据,存储在所述实例标识对应的所述目标存储空间中。
进一步可选地,根据所述至少一个数据处理模型各自的计算规则,对当前监听的第一数据源中的数据分别进行处理之前,还包括:针对所述至少一个数据处理模型中的任一数据处理模型,确定所述数据处理模型对应的第二数据源;将所述第二数据源中的数据以及所述数据的处理进度信息,实时同步至所述第一数据源中,以供所述目标作业实例读取。
进一步可选地,通过所述目标作业实例,分别根据所述至少一个数据处理模型的元数据,运行所述至少一个数据处理模型,包括:根据所述数据处理模型的元数据,确定所述数据处理模型包含的多个计算单元;识别所述多个计算单元各自的计算类型;根据所述多个计算单元各自的计算类型,将所述数据处理模型的运行过程划分为至少一个运行阶段;采用所述目标作业实例对应的不同资源,分别运行所述至少一个运行阶段各自包含的计算单元。
进一步可选地,识别所述多个计算单元各自的计算类型,包括:针对所述多个计算单元中的任一计算单元,从所述数据处理模型的元数据中获取所述计算单元的执行脚本;解析所述执行脚本,并根据解析结果判断所述计算单元是否包含状态读写操作;若所述计算单元包含状态读写操作,则确定所述计算单元的计算类型为有状态计算。
进一步可选地,所述目标作业实例部署在分布式计算系统中,所述分布式计算系统包含:用于执行无状态计算的第一类计算节点,以及用于执行有状态计算的第二类计算节点;采用所述目标作业实例对应的不同的资源,分别运行所述至少一个运行阶段各自包含的计算单元,包括:通过所述目标作业实例,采用所述第一类计算节点中的第一目标节点运行无状态计算阶段的计算单元,和/或,采用所述第二类计算节点中的第二目标节点运行有状态计算阶段的计算单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210096168.1/2.html,转载请声明来源钻瓜专利网。