[发明专利]一种基于消息队列的分布式数据实时去重方法有效
申请号: | 201510572334.0 | 申请日: | 2015-09-10 |
公开(公告)号: | CN105183858B | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 王大伟;孙昊良;何清林;马秀娟;张良;吴昊;汪立东 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高燕燕 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 消息 队列 分布式 数据 实时 方法 | ||
本发明公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。
技术领域
本发明涉及分布式计算技术领域,尤其涉及一种分布式环境下高效、实时的数据去重方法。
背景技术
飞速发展的互联网对数据处理的效率和扩展性提供了更高的要求。如今,越来越多的解决方案使用分布式系统来应对这一挑战。与集中式系统相对,分布式系统将应用分解成许多小的部分,分配给多台计算机进行处理,具有扩展性好、整体成本低、处理效率高等特征。
分布式系统是建立在网络上的软件系统,其展现给用户的是一个统一的整体,但内部独立的分布式计算模块之间却涉及复杂的数据交互。在某些应用场景下,例如有多个数据生产者同时产生相同类型的数据,有多个消费者随机的实时消费这些数据。为了确保一致性,对数据生产者产生的数据进行实时去重就显得尤为重要。
发明内容
本发明公开一种基于消息队列的分布式数据实时去重方法,该方法在消息网络的基础上,加入一组数据去重信息服务器,一方面消费原始数据产生着生成的数据,另一方面对原始数据去重后提供给数据消费者使用。
为解决上述问题,本发明提供了一种基于消息队列的分布式数据实时去重方法,该方法包括步骤:
S1.配置一台去重信息服务器;
S2.配置一台主服务器;
S3.根据消息网络接口,配置若干台数据从服务器,并加入消息网络;
S4.为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;
S5.根据原始数据信息,去重数据信息及去重服务信息确定从服务器;
S6.原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;
S7.数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;
S8.去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;
S9.主服务器根据从服务器信息更新从服务器信息。
具体实施方式
本发明的一种基于消息队列的分布式数据实时去重方法,包括如下步骤:
S1.配置一台去重信息服务器;
S2.配置一台主服务器;
S3.根据消息网络接口,配置若干台数据从服务器,并加入消息网络;
S4.为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;
S5.根据原始数据信息,去重数据信息及去重服务信息确定从服务器;
S6.原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;
S7.数据从去重信息服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510572334.0/2.html,转载请声明来源钻瓜专利网。