[发明专利]一种交易平台数据处理方法在审
申请号: | 201611109700.X | 申请日: | 2016-12-02 |
公开(公告)号: | CN108153789A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 安西民;吴方才;徐凤桐 | 申请(专利权)人: | 航天星图科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02;G06Q40/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区国*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交易平台 数据处理 数据交易 数据处理系统 数据收集单元 互联网交易 中间存储器 准确度 清洗处理 数据仓库 数据清洗 数据缺失 数据收集 自动数据 定制化 客户机 填充 工作量 自动化 | ||
本发明涉及一种交易平台数据处理方法,该方法应用于交易平台数据处理系统中,该系统包括多个互联网交易平台,多个数据收集单元,中间存储器,数据清洗平台,数据仓库,客户机;该交易平台数据处理方法能够针对不同的数据交易平台作定制化的数据收集和清洗处理,能够基于同一/全部交易平台数据进行数据缺失补全,提高了数据补全的准确度和自动数据填充的比率,减少了人为参与的工作量,提高了自动化程度,从而能够为数据交易平台数据处理提供有力保障。
【技术领域】
本发明属于数据处理领域,尤其涉及交易平台数据处理方法。
【背景技术】
供货商可以通过多个互联网交易平台发布产品信息,而买家可以从互联网交易平台中获取信息,并通过产品供货商所发布的信息可以联系到产品供货商进行购买;在这一过程中,就涉及到大量数据的处理。但是,由于每个互联网交易平台对信息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个供货商去不同的互联网交易平台发布同一个产品可能会出现不同的表现形式,其会造成这些互联网产品交易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同互联网数据源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判断是否有重复数据的重要保障。
现有技术中的数据清洗方法都比较简单,不能针对同时针对多个数据交易平台作并行的数据采集,也没有考虑各个不同的数据交易平台之间的差异来进行定制化的处理,自动数据补全的方法相对简单导致自动化程度不高;基于上述诸多问题,现在亟需一种新的交易平台数据处理方法,能够针对不同的数据交易平台作定制化的数据收集和清洗处理,能够针对同一/全部交易平台数据进行数据缺失补全,提高了数据补全的准确度和自动数据填充的比率,减少了人为参与的工作量,提高了自动化程度,从而能够为数据交易平台数据处理提供有力保障。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种交易平台数据处理方法,其特征在于,该方法包括如下步骤:
步骤1:数据收集单元基于针对互联网交易平台的采集策略通过互联网进行数据收集;
步骤2:中间存储器保存来自不同互联网交易平台的数据;
步骤3:数据清洗平台对数据集合中的所有数据进行格式内容的标准化处理;
步骤4:数据清洗平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值。
步骤5:数据清洗平台将处理后的数据集合保存到数据仓库中;
步骤6:客户机访问数据仓库获取所需数据;
进一步的,基于数据清洗平台的请求将特定数据收集单元采集的匹配所请求序列编号的数据集合通过中间存储器发送给数据清洗平台。
进一步的,中间存储器中为每个数据收集单元分配独立的存储区域。
进一步的,同一数据收集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中。
进一步的,在数据收集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向中间存储器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储。
进一步的,当序列编码对应的数据集合过了保留时间期限后则标记为无效。
进一步的,序列编号随着采集次数的增加而增加。
进一步的,该临时存储区域在物理上邻接该存储区域;。
进一步的,中间存储器为存储器集群。
进一步的,中间存储器允许多个设备发起的并行数据访问。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天星图科技(北京)有限公司,未经航天星图科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611109700.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面信息个性化处理方法、装置及系统
- 下一篇:一种本地文件监控方法及装置