[发明专利]一种数据形式模板构建方法、装置、系统和存储介质在审
申请号: | 202110343090.4 | 申请日: | 2021-03-30 |
公开(公告)号: | CN115145908A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 孔维;黄缨宁;陈雨强;方荣 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/2458;G06F16/248;G06F16/25;G06F16/28 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 郭鑫 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 形式 模板 构建 方法 装置 系统 存储 介质 | ||
本公开涉及数据形式模板构建方法、装置、系统和存储介质。方法包括:响应于创建数据形式模板的操作,展示数据形式模板构建页面;所述数据形式模板构建页面包括:数据源配置项、数据表字段配置项、数据转化流程配置项和数据存储配置项;基于用户在数据形式模板构建页面上的配置操作,构建对应的数据形式模板。可见,通过提供数据形式模板构建页面,在该页面中包括数据源配置项、数据表字段配置项、数据转化流程配置项和数据存储配置项,进而基于用户在数据形式模板构建页面上的配置操作,构建对应的数据形式模板,数据形式模板可以对接实时数据,实现对实时数据的处理,并支持将处理后的数据存储到实时内存数据库,解决AI应用中的数据处理问题。
技术领域
本公开实施例涉及机器学习技术领域,具体涉及一种数据形式模板构建方法、装置、系统和存储介质。
背景技术
目前已有不少数据处理类工具,也即ETL(Extract-Transform-Load,抽取-转换-加载)工具,提供从已有存储引擎进行数据抽取,实现数据转化,进行数据加载的工作。这类工具主要的缺陷如下:
1、围绕传统数仓实现,基本只能使用数仓或已经离线加工的数据,无法对接在线的实时数据;
2、只能使用离线的数据处理语言,如PySpark(Spark为Python开发者提供的API)或Spark SQL(Spark的结构化查询语言),无法提供实时高效的数据处理方法;
3、只能存储到离线数据框架,如HDFS(Hadoop分布式文件系统)、MySQL(关系型数据库管理系统),无法存储到实时或近实时存储框架。
但在AI(Artificial Intelligence,人工智能)应用的实践中,离线数据并不是较好的数据样本选择,如果采用离线数据进行机器学习训练,需要额外的两个工作:1、在上线时需要把线上实时请求的http(hypertext transfer protocol,超文本传输协议)类数据转译为离线训练一致的schema(数据表字段)格式;3、在上线时需要把离线的特征工程翻译为线上实时可用的java语句。此外,由于采用离线训练时无法感知线上的数据与离线数据的差异,可能在数据转译时发现字段缺失,时间穿越等问题,降低AI模型的预测效果。因此,采用现有的数据处理流程,无法解决AI应用中的数据处理问题。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种数据形式模板构建方法、装置、系统和存储介质。
第一方面,本公开实施例提供一种数据形式模板构建方法,该方法包括:
响应于创建数据形式模板的操作,展示数据形式模板构建页面;数据形式模板构建页面包括:数据源配置项、数据表字段配置项、数据转化流程配置项和数据存储配置项;
基于用户在数据形式模板构建页面上的配置操作,构建对应的数据形式模板。
在一些实施例中,数据源配置项包括离线数据源配置项和实时数据源配置项;
数据表字段配置项包括数据字段名、数据类型、数据字段业务含义中的一个或多个;
数据转化流程配置项包括数据表拼接逻辑、数据质量检测逻辑、离线数据转换逻辑、流式数据转换逻辑、批流一体转换逻辑中的一种或多种;
数据存储配置项包括数据存储介质和数据存储位置。
在一些实施例中,离线数据源配置项和实时数据源配置项均包括:数据库类型、服务器地址、端口、编码格式中的一个或多个。
在一些实施例中,数据形式构建页面还包括:资源配置项;
资源配置项包括数据处理所需资源的配置信息。
在一些实施例中,该方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110343090.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置