[发明专利]一种基于MPP架构数据库的数据去重方法及装置在审
| 申请号: | 202210168375.3 | 申请日: | 2022-02-23 | 
| 公开(公告)号: | CN114547012A | 公开(公告)日: | 2022-05-27 | 
| 发明(设计)人: | 李恒昌;甘剑锋 | 申请(专利权)人: | 度小满科技(北京)有限公司 | 
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/21 | 
| 代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 | 
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 mpp 架构 数据库 数据 方法 装置 | ||
本发明公开了一种基于MPP架构数据库的数据去重方法,该方法在根据统计参数确定原始数据中待去重的目标数据后,将多指标去重操作转化为多个单一指标去重操作,对目标数据的各去重指标进行逐一去重处理,再按照去重维度聚合各去重子项,本方法中的单一指标逐一去重相比传统的多指标同时去重工作量显著缩减,能有效的解决直接count distinct时计算效率低下、甚至无法运行的问题,同时资源占用也较小,且随着去重指标个数的增加,该方法对于效率的提升效果更为显著,可以实现多指标的快速去重。本发明还公开了一种基于MPP架构数据库的数据去重装置、设备及可读存储介质,具有相应的技术效果。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于MPP架构数据库的数据去重方法、装置、设备及可读存储介质。
背景技术
去重是日常统计分析中一个十分重要的工具,例如统计一天的交易用户数、一个月的交易用户数、PV(Page View,访问量)、UV(Unique Visitor,独立访客)等。不同于常见的对于笔数和金额等直接累计的统计方法,去重的核心思路是将用户在规定时间范围内的多次操作按一次进行统计。
现有技术中通常采用基于SQL的count distinct(SQL中一个去重函数)直接处理的去重方法,该方法能在一定程度上满足数据去重的需求,但是只适合数据量小的场景,一旦数据量达到千万级、亿级及以上时,查询效率会直线下降,甚至无法运行。
综上所述,如何在存在多个去重指标时保证去重运行效率,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种基于MPP架构数据库的数据去重方法、装置、设备及可读存储介质,以解决多指标下的去重效率问题。
为解决上述技术问题,本发明提供如下技术方案:
一种基于MPP架构数据库的数据去重方法,包括:
接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;
确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;
对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;
聚合各所述去重子项,作为去重数据。
可选地,所述统计参数中还包括:非去重指标;
则相应地,还包括:
统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据;
合并所述非去重数据以及所述去重数据,作为统计结果。
可选地,所述统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据,包括:
调用聚合函数对所述原始数据中在所述统计维度下所述非去重指标的数据进行聚合计算,并将所述聚合计算的结果作为所述非去重数据。
可选地,所述聚合各所述去重子项,包括:按照所述统计维度聚合各所述去重子项。
一种基于MPP架构数据库的数据去重装置,包括:
数据接收单元,用于接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;
目标确定单元,用于确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;
单一去重单元,用于对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;
数据聚合单元,用于聚合各所述去重子项,作为去重数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210168375.3/2.html,转载请声明来源钻瓜专利网。





