[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效
申请号: | 201710930206.8 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107885705B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 陈小军;于晓杰;时金桥;申立艳;文新;张闯 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F16/93 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 扩展 安全 文档 相似性 计算方法 装置 | ||
本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi‑GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种高效可扩展的安全的文档相似性计算方法和装置。
背景技术
长时间以来,文档相似性计算都是在假设文档集中于一方或分布于多方,但文档内容相互可见的情况下进行的,但这一假设在敏感文档相似性计算的场景下是不能成立的。
近几年,随着对保护数据安全的关注,已有一些关于安全的文档相似性计算的研究工作。这些工作主要分成两种技术路线,一种是将文档表示成向量的形式,然后借助安全的向量距离计算获得文档间的相似性。例如Murugesan等人(Jiang W,Murugesan M,Clifton C,et al.Similar document detection with limited informationdisclosure[C]//2008IEEE 24th International Conference on DataEngineering.IEEE,2008:735-743.)首次提出的安全的文档相似性计算,将文档表示成词频向量后使用安全的点积计算协议计算文档间的相似性;Buyrukbilen等人(BuyrukbilenS,Bakiras S.Secure similar document detection with simhash[C]//Workshop onSecure Data Management.Springer International Publishing,2013:61-75.)使用SimHash算法将文档表示成值为0和1的比特向量,然后通过安全的异或操作计算文档间的相似性。另一种技术路线将文档表示成指纹集合,然后借助安全的集合相似性计算得到文档间的相似性。例如Jiang等人(Jiang W,Samanthula B K.N-gram based secure similardocument detection[C]//IFIP Annual Conference on Data and ApplicationsSecurity and Privacy.Springer Berlin Heidelberg,2011:239-246.)将文档表示成n-gram集合后使用一种原创的安全Jaccard相似性协议计算文档间的相似性。Blundo等人(Blundo C,De Cristofaro E,Gasti P.EsPRESSo:efficient privacy-preservingevaluation of sample set similarity[M]//Data Privacy Management andAutonomous Spontaneous Security.[S.l.]:Springer,2013:89–103.)同样将文档表示成n-gram集合,但为了提高计算效率,使用MinHash文档指纹算法对n-gram选样后,借助隐私保护的集合交集基数计算(Private Set Intersection Cardinality)得到文档间的相似性。
当前的这些已有的技术大多聚焦在两个文档间的相似性计算,而在真实的应用场景中,两个文档集中的文档进行两两间相似性计算的需求普通存在,例如在两个学术会议间进行文章的一稿多投检测,两方均拥有一个文档集合需要进行相似性计算。直接应用当前这些技术,来获得包含r个文档的文档集间每对文档的相似性,大多需要进行r×r次文档间的计算,即呈现关于r的平方时间复杂度。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710930206.8/2.html,转载请声明来源钻瓜专利网。