[发明专利]一种流式数据处理方法和系统在审
申请号: | 201810889376.0 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109213793A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 左梅兰;郭子森 | 申请(专利权)人: | 泾县麦蓝网络技术服务有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 施敬勃 |
地址: | 242530 安徽省宣*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流式数据 特征数据 数据处理 流式 预处理 数据相似度 并发访问 参考数据 处理线程 传输性能 错误数据 电子商务 时间减少 数据集中 数据维度 响应请求 关联度 数据集 过滤 抽取 询问 保留 优化 | ||
本发明公开了一种流式数据处理方法和系统,通过将电子商务中大量流式数据抽取流式数据的概要特征数据,建立多条处理线程,经合概要特征数据并成多个数据集,并且对数据预先进行预处理,降低数据维度,合理计算参考数据与其他数据之间的数据相似度值,从而确定数据集中的每个数据是否具有较好的关联度,最终确定是否保留该数据。可以使得在面对流式数据量较大且高并发访问时,系统可以及时响应请求,过滤错误数据,询问时间减少,传输性能可以得到优化。
技术领域
本发明涉及计算机数据处理技术领域,特别涉及一种流式数据处理方法和系统。
背景技术
电子商务是一项蓬勃发展的商业模式,由此给中小企业发展带来了新契机。在中小企业与电子商务协同发展的过程中,信息化是必不可少的中间环节。然而目前中小型企业信息化建设缓慢,有关中小型企业仓储物流信息化建设研究较少,目前己实现的系统设计具备基本功能,但缺乏较好的细节设计与用户体验。对于电子商务公司来说,内部落后的信息化水平可能成为制约其服务效率的一个重要原因。电子商务应用的设计必须以数据的存储与管理为中心,以数据库技术为中心,从逻辑概念和软、硬件技术两个方面实现一个高性能的和以数据为中心的网络系统,为用户提供一个有效的数据存储管理系统。
但是,现有技术中一般采用客户端/服务器架构的并发控制机制,由客户端接收请求,服务器响应客户端发来的数据,进行数据并行处理,但面对流式数据量较大且高并发访问时,系统无法及时响应请求,并且客户端管理繁琐,询问时间增加,传输性能难以保证,其中一些数据未进行筛选过滤或者未进行优化处理,保存在数据库表中的数据往往有数据缺失、信息冗余和数据错误等质量问题。因此,亟待提出针对流式数据处理的方法。
发明内容
本发明实施例提供了一种流式数据处理方法和系统,将流式数据进行优化处理,从而解决了现有流式数据处理时出现数据错误、系统无法及时响应请求、询问时间增加、传输性能难以保证等问题。
为了解决上述问题,本发明公开了如下技术方案:
第一方面,提供一种流式数据处理方法,包括:
建立一个长度为S的窗口,利用处理器CPU单元从多条流式数据的当前窗口中抽取概要特征数据;
利用处理器GPU单元建立多个线程并行处理单元,所述多个线程并行处理单元中的一个线程并行处理单元对应于所述多条流式数据中的一条流式数据;
将所述概要特征数据合并形成多个概要特征数据集,其中每个所述概要特征数据集中的第一条记录为所述概要特征数据集的参考数据;
对所述多个概要特征数据集中的数据进行预处理,降低所述数据的维度,删除冗余或者关联性不大的属性;
对所述概要特征数据集的数据逐条遍历执行字符串匹配运算,将所述概要特征数据集的第一条记录与后面的记录进行比较;
计算所述参考数据与所述概要特征数据集中其他数据的数据相似度值,将得到的数据相似度值Q与预设的参考数据相似度值进行比较,得到比较结果;
根据所述比较结果确定所述其他数据是否保留,保留的数据为所述当前窗口的存档数据。
第二方面,提供一种流式数据处理系统,包括:
抽取模块,建立一个长度为S的窗口,从多条流式数据的当前窗口中抽取概要特征数据;
多线程处理模块,建立多个线程并行处理单元,所述多个线程并行处理单元中的一个线程并行处理单元对应于所述多条流式数据中的一条流式数据;
合并模块,将所述概要特征数据合并形成多个概要特征数据集,其中每个所述概要特征数据集中的第一条记录为所述概要特征数据集的参考数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泾县麦蓝网络技术服务有限公司,未经泾县麦蓝网络技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810889376.0/2.html,转载请声明来源钻瓜专利网。