[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效
申请号: | 201710930206.8 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107885705B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 陈小军;于晓杰;时金桥;申立艳;文新;张闯 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F16/93 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi‑GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。 | ||
搜索关键词: | 一种 高效 扩展 安全 文档 相似性 计算方法 装置 | ||
【主权项】:
一种高效可扩展的安全的文档相似性计算方法,其步骤包括:第一方根据MinHash文档指纹算法将第一方文档集C中所有文档表示成固定数量指纹的指纹集合,并根据第一方文档集C构建一Bloom filter,记做BFC;第一方将BFC作为不经意传输协议的选择向量,并向第二方发送连接请求;其中所述第二方亦根据MinHash文档指纹算法将第二方文档集S中所有文档表示成固定数量指纹的指纹集合;第一方接收第二方发送的m对λ比特长的比特位串,通过不经意传输协议,第一方根据选择向量BFC当前位i的取值是0还是1,选择接收m对λ比特长的比特位串中multi‑GBFr或multi‑GBFs的第i个比特串,接收的比特位串组成一个文档集C和文档集S的交集的multi‑GBF,记做multi‑所述multi‑GBFS是指第二方根据第二方文档集S构建的multi‑GBF,所述multi‑GBFr是随机串;第一方在multi‑中查询文档Ca的每一个指纹元素,得到若干个交集其中Ca为第一方文档集C的第a个文档,的下标b是Ca的指纹元素在第二方的来源ID;根据上述交集得到第一方的第a个文档Ca和第二方的文档Sb之间的相似度为其中,为集合中元素的数量,Sb为第二方文档集S的第b个文档,t为每个文档提取的MinHash指纹数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710930206.8/,转载请声明来源钻瓜专利网。