[发明专利]一种清洗对比入库方法有效
申请号: | 201611097362.2 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106776951B | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 安西民;吴方才;徐凤桐 | 申请(专利权)人: | 中科星图股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区临空经济核*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种清洗对比入库方法,该方法应用于大数据互联网环境中,该系统包括多数据来源,多个数据采集单元,缓存服务器,统一数据处理平台,数据仓库,上位机;该清洗对比入库方法对数据作并行采集和处理,去除明显不合理和明显矛盾的数据,进行自动数据值补全,重复数据删除等清洗处理。本发明所采用的清洗方法智能化程度高,人为参与程度较低,能够自动化的进行大数据清洗,能够针对不同的用户作个性化的数据清理,在用户进行数据获取时对上位机身份作鉴权,提高了安全性。 | ||
搜索关键词: | 一种 清洗 对比 入库 方法 | ||
【主权项】:
1.一种清洗对比入库方法,其特征在于,该方法包括如下步骤:(1) 数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;(2) 缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;(3) 统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;(4) 统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;(5) 统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;(6) 统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;(7) 统一数据处理平台对数据集合进行缺失补全;(8) 统一数据处理平台找出相似重复的数据以便去重;(9) 在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;(10) 上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科星图股份有限公司,未经中科星图股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611097362.2/,转载请声明来源钻瓜专利网。