[发明专利]数据处理方法和数据处理装置在审
申请号: | 202110872899.6 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113569969A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 郑子皓;武靖宇 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本公开关于一种数据处理方法和数据处理装置。所述数据处理方法包括:对抽取的样本子集中的每个样本子集进行第一预设组样本子集和第二预设组样本子集的匹配,以获取多个第一预设组匹配样本子集,其中,每个所述样本子集均包括所述第一预设组样本子集和所述第二预设组样本子集;获取每个匹配样本子集的数据处理结果,其中,每个所述匹配样本子集均包括所述第一预设组匹配样本子集和所述第二预设组样本子集;基于每个所述匹配样本子集的数据处理结果,得到最终数据处理结果。所述数据处理方法和数据处理装置每次只需要抽取部分样本,减少了异常值对于整体分布的影响,使得匹配和数据处理结果更加稳健,并且可以采取分布式运算方法降低时间复杂度。
技术领域
本公开涉及数据处理领域,更具体地说,涉及一种用于AB实验的数据处理方法和数据处理装置。
背景技术
AB实验作为一种常见的随机控制实验(Randomized Controlled Trial),经常用于评估新提出的模式、方案或者算法。然而,传统的AB实验经常受限于随机分组误差、样本分布偏度、离群异常值分布,使得样本分布的平衡性在实验前得不到保证,从而影响后续统计推断的准确性和稳健性。例如,在商业数据分析中,客户侧AB实验在评估对于消耗(cost)、预算(budget)、收入(GMV)的影响时,由于个体样本差异,经常使得A组(对照组)与B组(实验组)在实验开始之前的分布不均匀。
发明内容
本公开提供一种数据处理方法和数据处理装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开的实施例的第一方面,提供一种数据处理方法,包括:对抽取的样本子集中的每个样本子集进行第一预设组样本子集和第二预设组样本子集的匹配,以获取多个目标预设组匹配样本子集,其中,每个所述样本子集均包括所述第一预设组样本子集和所述第二预设组样本子集;获取每个匹配样本子集的数据处理结果,其中,每个所述匹配样本子集均包括所述目标预设组匹配样本子集和所述第二预设组样本子集;基于每个所述匹配样本子集的数据处理结果,得到最终数据处理结果。
可选地,所述方法还可包括:通过自展法对预定整体样本集进行抽样得到所述抽取的样本子集。
可选地,所述通过自展法对预定整体样本集进行抽样得到所述抽取的样本子集,可包括:通过自展法对预定整体样本集中所包括的第一预设组样本和第二预设组样本分别进行抽样,以获取多个所述第一预设组样本子集和多个所述第二预设组样本子集,然后将多个所述第一预设组样本子集和多个所述第二预设组样本子集一一对应地进行组合。
可选地,所述对抽取的样本子集中的每个样本子集进行第一预设组样本子集和第二预设组样本子集的匹配,以获取多个目标预设组匹配样本子集,可包括:通过应用倾向得分匹配法,对所述抽取的样本子集中的每个样本子集进行第一预设组样本子集和第二预设组样本子集的匹配,以获取多个目标预设组匹配样本子集。
可选地,所述基于每个所述匹配样本子集的数据处理结果,得到最终数据处理结果,可包括:通过针对每个所述匹配样本子集的数据处理结果执行取平均处理来获得所述最终数据处理结果,其中,所述匹配样本子集的数据处理结果包括所述匹配样本子集的效应量和显著性水平量。
可选地,所述基于每个所述匹配样本子集的数据处理结果,得到最终数据处理结果,可包括:通过针对每个所述匹配样本子集的数据处理结果执行假设检验,将假设检验的检验结果作为所述最终数据处理结果,其中,所述匹配样本子集的数据处理结果包括所述匹配样本子集的效应量和显著性水平量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110872899.6/2.html,转载请声明来源钻瓜专利网。