[发明专利]基于时间序列的大数据编解码方法及装置在审
申请号: | 202110261839.0 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113094346A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 郑叔亮 | 申请(专利权)人: | 北京四达时代软件技术股份有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/2458;H03M7/40 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 101102 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 序列 数据 解码 方法 装置 | ||
本发明公开一种基于时间序列的大数据编解码方法及装置,涉及大数据技术领域,能够高效的针对时间序列的大数据进行编解码。该方法包括:获取基于时间序列的原数据,采用预设的数据模式对原数据进行编码形成数据帧;将新产生的数据帧与同一数据模式下的参考数据帧做差分运算,并以差分值更新数据帧中的属性值;将数据帧切分成多个数据传输片段,通过对传输片段压缩后封装成数据传输单元并由编码段发送至解码端;利用解码端对数据传输单元解压缩后复原传输片段,组装得到数据帧存储于数据系统中。该装置应用有上述方案所提的方法。
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于时间序列的大数据编解码方法及装置。
背景技术
随着大数据技术在各个领域和行业中的深入应用,对海量数据的处理、传输、存储、查询、分析等业务面临着不断升级的挑战。这些挑战不仅包括各种信息系统、终端设备和应用、网络设备等无时无刻不在产生着的各种格式和结构的数据,导致数据增速呈级数式地增高;还包括用于存储、传输和处理这些海量数据的硬件和网络资源总是处于一个临界不足的状态,因为对于很对企业和机构来说,资金、基础设施、电力和环境的消耗在短时间内造成的损失和成本投入还无法通过大数据的资产价值收回效益。也就是说,即便是在计算、存储和网络等基础设施的单位成本不断降低的今天,还是无法有效满足大数据对资源需求的“贪婪”增长。因此,通过创新的技术手段不断提升海量数据的处理、传输、存储和使用的效率是具有长期显著价值的。
时间序列数据(简称时序数据)则是大数据中的一种具体形式,代表一系列时间点上的观测值按等时间间隔获取所得的数据集合,例如PM2.5的实时测量浓度、股票的实时价格、生产车间的温度传感器测量值、气象学中某城市的年降水量、月平均气温等等,即时序数据描述了被测量主体在某一时间范围内的每个时间点上的测量值。从某种角度讲,几乎所有的数据都是具有时间维度的,特别是数据生成和状态变迁的时候确定的数据时间戳往往是具有持续有效价值的。各行各业都是离不开时间序列数据的,各种大数据的场景都会包含时间序列数据。特别是近年来,伴随着物联网、大数据和人工智能技术的发展,时序数据的规模呈现一个爆发式的增长态势,以百度无人车为例,其每辆车每天采集到的数据规模便可达8TB。
在具体的大数据技术场景中,基础层面的技术领域无外乎就是数据编码、压缩、存储、传输、查询和检索。一个好的数据系统一定是在这些基础层面的性能足够优秀,才能更好地为高层次的技术领域服务,比如海量数据的汇总统计、分布式计算和挖掘、知识图谱、机器学习等等。现有的大数据技术往往只是聚焦在一个领域点上,很难形成一个系统化的解决方案,也就很难形成最具性价比的解决方案和系统。比如在很多数据系统里面都会使用的无损压缩技术snappy、zlib和LZ系列算法都没有充分考虑数据的独特特性(比如时间序列数据的时序性),因此压缩效率不会很理想。再比如一些跨编程语言(或称为编程语言无关)的数据序列化/反序列化技术,比如XML、JSON、Avro、Protobuf等,在处理具有一定数据模式schema的数据编码方面具有广泛的应用,但是这些技术本身并没有充分考虑数据的压缩,一般情况下需要和通用压缩算法配合使用,也没有考虑数据在传输和网络交换过程中的吞吐能力、可靠性和一致性等问题,更加没有考虑数据存储的效率,所以往往都需要在数据持久化到存储系统之前进行很大的结构变换。
另外一些分布式数据存储系统,比如目前最为流行的Hadoop系列中的各种数据存储系统,比如HDFS、HBase、HIVE、OpenTSDB等,都具备极佳的海量数据存储和检索能力,但是在数据编码和压缩方面都不够深入,导致有效数据单位的存储成本不低,而且系统的吞吐能力也存在瓶颈。另外,针对这些系统业界都会有流行的数据迁移工具辅助各种大数据场景的实现,比如Flume、Sqoop、Logstash等。这些工具在功能性上已经足够丰富,但是在并没有充分考虑数据迁移的源端和目标端的编码和压缩技术,以及数据在迁移管道上的可靠性和一致性等问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四达时代软件技术股份有限公司,未经北京四达时代软件技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110261839.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生产管控系统及方法
- 下一篇:停车围栏的标记方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置