[发明专利]拼接数据记录的方法及装置在审

专利信息
申请号: 201710538681.0 申请日: 2017-07-04
公开(公告)号: CN107402978A 公开(公告)日: 2017-11-28
发明(设计)人: 杨强;戴文渊;陈雨强;张舒羽;栾淑君 申请(专利权)人: 第四范式(北京)技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京铭硕知识产权代理有限公司11286 代理人: 徐璐璐,曾世骁
地址: 100085 北京市海淀区上*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 拼接 数据 记录 方法 装置
【说明书】:

技术领域

发明总体说来涉及信息技术领域,更具体地讲,涉及一种拼接数据记录的方法及装置。

背景技术

随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理。例如,利用机器学习技术来挖掘数据的价值。机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的样例时,模型会提供相应的判断,即,预测结果。可以看出,数据作为机器学习的原材料,影响着机器学习的最终效果。为此,需要不断地积累数据、更新数据或扩展数据,这就对高效、灵活的数据记录拼接方式有着很大的需求。

现阶段常用的数据记录拼接方式主要有:使用SQL(Structured Query Language,结构化查询语言)语句通过编写程序的方式;或者,诸如阿里云大数据平台“数加”和微软云计算系统“Azure”这类产品提供的可视化拼接功能。

然而,使用SQL语句进行数据记录拼接,对使用者的要求较高,需要使用者掌握SQL语法,学习成本较高。而数加和Azure虽然提供了可视化的交互界面,降低了使用者的门槛,但存在能够处理的拼接场景过于单一、不够灵活的问题。

发明内容

本发明的示例性实施例在于提供一种拼接数据记录的方法及装置,以解决现有技术存在的上述问题。

根据本发明的示例性实施例,提供一种拼接数据记录的方法,包括:数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。

可选地,所述方法还包括:输出数据记录生成步骤,基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。

可选地,各个输出字段在输出数据表中的排列顺序按照用户的输出字段配置操作来设置;或者,各个输出字段在输出数据表中的排列顺序按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。

可选地,所述至少两个数据表包括主表和至少一个拼接表,其中,仅针对所述至少一个拼接表来执行输出字段配置步骤,并且,在输出数据记录生成步骤中,通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。

可选地,来源字段还默认包括至少一个对应关联字段,其中,来源字段为对应关联字段的输出字段在输出数据表中的位置按照用户的输出字段配置操作或预设位置来设置。

可选地,在输出字段配置步骤中,还根据用户的输出字段配置操作来配置输出字段的名称。

可选地,所述处理方式包括直接提取方式和/或聚合处理方式,其中,在直接提取方式下,将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值;在聚合处理方式下,对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。

可选地,所述聚合处理方式包括直接聚合处理方式,其中,在直接聚合处理方式下,对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。

可选地,所述至少两个数据表包括主表和至少一个拼接表,并且,所述聚合处理方式包括时序聚合处理方式,其中,在配置时序聚合处理方式时,根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,在时序聚合处理方式下,对拼接表中的多条待拼接数据记录之中符合时序范围的待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。

可选地,所述聚合运算包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710538681.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top