本发明公开一种基于本地差分隐私的大数据域集合数据采集方法。该方法包括:服务器将用户分组,并将划分结果,数据条数和隐私预算公开。用户首先对自己的集合数据进行采样或填充,根据自身组别对集合数据进行截断,然后对数据进行展平操作并对处理后的数据进行扰动,最后将结果发送给服务器。服务器收集用户的扰动后数据,按组别依次计算出相应候选集中数据的频率估计结果,并找出top‑k heavy hitters,随后在此基础上构造下一轮次的候选集,直至处理完全部数据,最后一轮得到的即为所求heavy hitters。本发明可以抵抗具有任意背景知识的攻击者,防止来自不可信第三方服务器的隐私攻击;本发明可以在保证查询准确度的前提下,降低计算复杂性,提高效率。