[发明专利]一种基于数据加工中心的数据流式处理方法有效
申请号: | 201410661945.8 | 申请日: | 2014-11-19 |
公开(公告)号: | CN104317970B | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 黄雪东;武军 | 申请(专利权)人: | 亚信科技(南京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 王玉梅 |
地址: | 210013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 加工 中心 数据流 处理 方法 | ||
本发明公开一种基于数据加工中心的数据流式处理方法,所述数据加工中心中预定义有包括数据校验、排序、聚合和分组的加工方法步骤,以及两个不同加工方法步骤之间的连接关系;数据加工中心还设置有用于连接数据源的数据源接入端口、用于连接用户界面的数据加工方法及流程定义接入端口、目标数据输出端口以及用于连接流程监控单元的加工流程监控接口;数据流式处理方法包括数据获取、流式处理配置、数据加工方法配置以及目标数据源的获得等步骤,用户可通过用户界面配置数据加工方法和定义数据加工流程,从而得到相应的目标数据源。本发明利用大数据平台采用数据流式处理,可提高大数据处理速度,扩大可支持的数据加工方法种类范围。
技术领域
本发明涉及大数据处理技术领域,特别是一种基于数据加工中心的数据流式处理方法。
背景技术
无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。
大数据治理和分析是在大数据处理过程中非常棘手的问题,如何做到处理的及时性、灵活性和准确性尤为重要。目前在互联网行业中通常采用牺牲灵活型和准确性(甚至允许丢失部分数据)的方式来换取数据处理的及时性,但是在某些行业中,数据处理的准确性是非常重要的,同时又要确保其及时性和稳定性。针对这种需求就生出的内存池,共享内存以及管道等技术拼装出数据加工中心,数据处理规则可以在数据加工中心中灵活配置,数据流在加工中心“流”过后,加工中心就会根据配置业务规则提供相应的组件对数据进行实时处理,经过加工中心处理后的数据可以通过统一源管理对外提供数据。
传统的数据处理中心,数据处理步骤过程中数据落地,数据处理如排序,剔重,过滤等等功能固化,增加特性化数据处理难,功能可扩展性差,数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通,只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理,即在一个数据加工治理流程中需要多次的对数据进行读写,这样不仅使得机器的IO负载过高,而且整个数据加工和治理的速度将大打折扣,在很多时候都不能满足数据的及时性要求。也有一些大数据应用平台不能够支持很多种数据的加工方法,也不能够灵活的配置加工方法,只能够单一的满足一些业务要求。
阿里大数据应用平台是阿里公司旗下产品的数据管理与分析平台,其灵活的配置任意数据源互通,具备统一的数据交换协议,可插件化开发数据处理功能,具有功能全面的流式计算集群。该应用平台处理来自云梯和飞天以及HBase和OceanBase等系统数据,但是就该平台而言目前在系统处理中应用相对独立,没有将数据流串联起来。
相关术语:
ETL: ETL是Extract-Transform-Load的缩写,中文名称为数据提取、转换和加载。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
流式处理: 流式处理利用管道模式使海量数据在生产线中流动,加工组件实现对数据清洗,转化,拆分,入库等操作。
数据加工中心: 一套完备的数据处理中心,可以对海量数据排重,维度替换,加密去隐私化,数据分类,聚类等等。
发明内容
本发明要解决的技术问题为:通过利用大数据平台采用数据流式处理,提高大数据处理速度,扩大可支持的数据加工方法种类范围,同时在大数据处理过程中能够灵活的配置各种数据源之间的互通。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚信科技(南京)有限公司,未经亚信科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410661945.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置