[发明专利]一种面向私有数据集的安全高效分位数聚合方法及装置有效
申请号: | 202110777290.0 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113434907B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 兰晓;陈兴蜀 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/22;G06F16/242 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 私有 数据 安全 高效 位数 聚合 方法 装置 | ||
本发明公开了一种面向私有数据集的安全高效分位数聚合方法及装置,首先,两方用户分别基于各自的私有数据集计算本地的Q‑Digest数据结构;其次,设计对输入独立的merge算法,确保算法运行过程不泄漏用户的原始输入信息;然后依据merge操作的全局敏感度,借助差分隐私技术增加适当的无效节点,并将增加了无效节点的树作为改进后merge算法的输入,调用开源的多方计算工具集,实现merge函数的安全计算,最终,两方分别从运行结果中得到聚合后的分位数近似计算结果。本发明能够使两方用户在确保各自私有数据集隐私能得以保护的前提下,安全的进行分位数近似计算的聚合问题,并确保整个分位数近似计算的聚合过程不泄漏除差分隐私允许的信息以外的额外用户私有信息。
技术领域
本发明涉及数据分析算法在多方进行聚合时的安全性增强技术领域,具体为一种面向私有数据集的安全高效分位数聚合方法及装置。
背景技术
分位数近似算法Q-Digest:Q-Digest算法是一种非常著名的分位数近似算法,主要用在数据库领域,用以回答分位数询问。该算法基于一个构建在数据集全集U上的完全二叉树进行分位数的近似计算。每个节点由一个二元组表示:id,c,初始状态下,树从根节点到叶子节点按照从上到下,从左到右的顺序,依次标记为1,2,3等作为节点的id;树的所有非叶子节点代表一个范围,该范围由其子节点所对应的元素决定,因此,根节点对应的范围为[1,U],其左孩子对应范围为[1,U/2],右孩子对应范围为[U/2+1,U],以此类推,可得该树每个节点对应的范围,与此同时,叶子节点的范围恰为一个数,该树即为数据集U中的某个元素;初始状态下,叶子节点所对应的元素在数据集中出现的频率被记作该节点的counter值c,非叶子节点在初始状态下counter值为0。因此,Q-Digest算法本质是基于一定的规则,更新每个节点的counter值c。为了更好的叙述更新规则,首先定义两个参数:压缩参数k和压缩门限θ,它们具有如下关系:其中n为待分析数据集的大小。更新过程按照从叶子节点到根节点的顺序进行,按层逐层更新。因此,更新某个被记为id,c的节点的counter值c的具体规则为:判断该节点的父节点的counter值cp、其兄弟节点的counter值cs和自身counter值的和是否满足以下不等式:c+cp+cs≤θ,若满足,称压缩条件满足,则将该节点父节点的counter值cp设为c+cp+cs,同时将c和cs设置为0,完成该节点的counter值的更新。若不等式不成立,称压缩条件不满足,则保留原counter值,继续对其他节点进行相同的判断,直至整个树所有节点均完成更新。两个树的更新通常叫做merge,主要用于不同用户之间数据的聚合计算,该过程首先需要将两棵树的结果进行刷新,也即对应节点的counter值相加,再重复执行上述的压缩更新过程。Q-Digest算法的一个具体运行实例如图1(a)-图1(c)所示,图1(a)为将原始数据集频率向量对应到数据集全集并放入二叉树叶子节点对应位置的待处理原始数据结构,图1(b)为依据Q-Digest算法对树的叶子层进行merge操作之后的数据结构,图1(c)为对树的倒数第二层进行merge操作之后的数据结构。从算法叙述可知,Q-Digest算法的执行,依赖于叶子节点上基于待分析数据集初始化的节点counter值,因此,如果涉及两方或者多方实体想基于各自持有的私有数据集进行分位数的近似计算,总是需要一方先将所有的数据汇聚,再执行算法,从而不可避免的导致由私有数据的迁移带来的数据隐私泄漏问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110777290.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置