[发明专利]一种基于多级存储的大数据传输完整性保护方法有效
申请号: | 201610849347.2 | 申请日: | 2016-09-26 |
公开(公告)号: | CN106484329B | 公开(公告)日: | 2019-01-08 |
发明(设计)人: | 苏志远;亓开元;周云锋 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F12/0893;H04L29/06 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明特别涉及一种基于多级存储的大数据传输完整性保护方法。该基于多级存储的大数据传输完整性保护方法,在多源异构大数据的数据源导入大数据平台时,在数据源与大数据平台之间加入一个分布式数据缓存集群,大数据平台不直接从数据源取数据而是从分布式数据缓存集群中读取;同时,分布式数据缓存集群采用Memory Cache、SSD以及Hard Disk的三级存储架构;各级存储之间采用基于策略和事件触发的调度机制,保证大数据平台能够快速地从分布式数据缓存集群中读取数据。该基于多级存储的大数据传输完整性保护方法,能够保证数据平台及时存储并处理实时的海量复杂异构数据,同时避免网络不稳定或者网络传输错误造成的数据丢失,保障了数据传输的完整性。 | ||
搜索关键词: | 一种 基于 多级 存储 数据传输 完整性 保护 机制 | ||
【主权项】:
1.一种基于多级存储的大数据传输完整性保护方法,其特征在于,在多源异构大数据的数据源导入大数据平台时,在数据源与大数据平台之间加入一个分布式数据缓存集群,大数据平台不直接从数据源取数据而是从分布式数据缓存集群中读取;同时,分布式数据缓存集群采用Memory Cache、SSD以及Hard Disk的三级存储架构;各级存储之间采用基于策略和事件触发的调度机制,保证大数据平台能够快速地从分布式数据缓存集群中读取数据;所述分布式数据缓存集群的数据结构和存储方式与数据源服务器保持一致,分布式数据缓存集群以流水化、并行方式传输,支持多任务并发,能够满足了高吞吐量的需求;支持订阅和轮询两种工作模式,不同类型的数据源设有不同的接口和组件来满足数据导入的需求;对于结构化的数据,在分布式数据缓存集群与数据源之间通过JDBC或者ODBC进行连接,从数据源读取数据后,直接插入分布式数据缓存集群中对应的数据库文件中;对于半结构化格式的数据,则通过FTP、Http协议直接进行读取;对于图像、视频格式的文件,直接通过FTP进行文件传输;所述分布式数据缓存集群的逻辑存储架构是消息队列,分布式数据缓存集群在数据存储方面的应用包括数据源写入,大数据集群读取,元数据管理和消息队列设置四部分;所述数据源写入分布式数据缓存集群,包括以下步骤:(1)数据通过轮询或者订阅的方式由数据源发送到分布式数据缓存集群,当数据到达分布式数据缓存集群时,最新的数据将首先存储到Memory Cache中;为了保证数据的安全性,最开始往Memory Cache中写时,数据按照3个副本的模式进行写入,同时保证数据的3个副本在不同的物理机器上,该机制通过hash算法来实现;(2)当某个消息队列在Memory Cache中数据量到达阈值时,按照队列FIFO的规则,则将最先存入Memory Cache的m%的数据往SSD中写,由于此时m%的数据是以3个副本的形式存在于Memory Cache中,在将m%的数据缓存到SSD时,将其中1个副本的数据缓存到SSD中,然后将对应的副本数据在内存中删除;(3)当SSD中存储的数据量到达阈值时,同样按照FIFO的规则,将最先写入到SSD的m%的数据写入到Hard Disk中,写入时,将一份数据的1个副本写入到hard disk中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610849347.2/,转载请声明来源钻瓜专利网。