[发明专利]基于布隆过滤器算法的地震台网大数据去重的方法有效
申请号: | 201910800615.5 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110532251B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 王英男;任涛;田宜聪;王柳婷;张钧桓 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过滤器 算法 地震 网大 数据 方法 | ||
本发明提出了一种基于布隆过滤器算法的地震台网大数据去重的方法。其特征是:步骤1通过TCP/IP协议接收多路数据流数据,并按字节进行拆包操作,并对拆包后的每个包进行解析;步骤2将经过拆包处理后的所有数据包进行一次去重过滤判断,并存储到布隆过滤器中;步骤3对解析出的包含特定含义字段的数据包进行判断是否需要二次去重过滤,并存储到HBase数据库中;步骤4将存储到HBase数据库中的数据包解析为地震数据MSEED格式,并存储到磁盘中永久保存,需要输出时以台网名、台站名、通道、采样率和时间组合的方式进行自动命名;步骤5利用obspy.merge方法对存储到HBase数据库中的数据包进行三次去重判断;步骤6通过TCP/IP协议建立连接,实现服务器端,将处理后的数据包以数据流的方式转发出去,并持续监听发送端口是否有请求。本发明从功能上将多路数据流汇总成单路数据流,通过布隆过滤器的一次去重、HBase数据库的二次去重以及obspy.merge方法的三次去重实现实时大数据的去重。
技术领域
本技术涉及大数据去重技术领域,具体涉及一种基于布隆过滤器算法的地震台网大数据去重的方法。
背景技术
近年来,随着信息技术的迅速发展以及应用系统规模的快速增长,由此产生的数据也呈现井喷式增长,寻求有效的大数据处理技术已成为当研究的热点问题,许多公司也在关注相关技术,以满足自身的业务需求。在此背景下,地震台网中心为汇总多路数据流,希望接收各省台站的数据并汇总,来解决数据分布不一致的问题,但随之而来的问题是,多路数据必然存在交集,需要进一步的对接收到的海量数据进行去重处理。
目前常用的数据去重处理技术有分布式缓存数据库Redis和Bloom Filter,其中分布式缓存数据库Redis是通过特有的数据结构sorted set可以自动进行数据去重,此办法的解决优势是基于内存处理数据,处理速度极快,但是所占内存极大,容易出现数据启动加载困难或堆内存溢出的问题;Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合,它是一个判断元素是否存在集合的快速的概率算法,虽然Bloom Filter不会漏掉判断,但有可能会出现错误判断,所以Bloom Filter不适合那些“零错误”的应用场合。
和传统的海量数据去重不同的是,实时数据的存在形式不同。历史数据的去重可以使用现有组件进行去重,但是实时数据流的去重并不适用。数据每时每刻都在发生变化,并且大小是不可预估的也不存在一种可以一直存放实时数据流的数据库,所以必然会不定期将数据库进行清空或者将历史数据进行清理才能不间断地进行实时去重。
发明内容
针对现有技术的不足,本发明提供了一种基于布隆过滤器算法的地震台网大数据去重的方法。本发明从功能上将多路数据流汇总成单路数据流,实现大数据去重。使用的编程技术主要是Java和Python开发技术,并运用大数据、Socket通信和地震学的知识使数据处理后可以直接使用。
为实现上述技术目的,本发明的技术方案为:
一种基于布隆过滤器算法的地震台网大数据去重的方法,包括以下步骤:
步骤1:通过TCP/IP协议议接收多路数据流数据,并按字节进行拆包操作,并对拆包后的每个包进行解析,所述的解析过程主要是将每个数据包按照特定含义字段进行解析,所述特定含义字段包括台网名、台站名、通道、采样率和时间;
步骤2:将经过拆包处理后的所有数据包进行一次去重过滤判断,并存储到布隆过滤器中;
步骤3:对解析出的包含特定含义字段的数据包进行判断是否需要二次去重过滤,并存储到HBase数据库中;
步骤4:将存储到HBase数据库中的数据包解析为地震数据MSEED格式,并存储到磁盘中永久保存,需要输出时以台网名、台站名、通道、采样率和时间组合的方式进行自动命名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910800615.5/2.html,转载请声明来源钻瓜专利网。