[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效
申请号: | 201710930206.8 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107885705B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 陈小军;于晓杰;时金桥;申立艳;文新;张闯 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F16/93 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 扩展 安全 文档 相似性 计算方法 装置 | ||
1.一种高效可扩展的安全的文档相似性计算方法,其步骤包括:
第一方根据MinHash文档指纹算法将第一方文档集C中所有文档表示成固定数量指纹的指纹集合,并根据第一方文档集C构建一Bloom filter,即布隆过滤器,记做BFC;第一方文档集C的存储结构为正排索引;
第一方将BFC作为不经意传输协议的选择向量,并向第二方发送连接请求;其中所述第二方亦根据MinHash文档指纹算法将第二方文档集S中所有文档表示成固定数量指纹的指纹集合;第二方文档集S的存储结构为倒排索引,根据倒排索引生成一个multi-GBF,即多来源混淆布隆过滤器,记做multi-GBFS;
第一方接收第二方发送的m对λ比特长的比特位串,通过不经意传输协议,第一方根据选择向量BFC当前位i的取值是0还是1,选择接收m对λ比特长的比特位串中multi-GBFr或multi-GBFS的第i个比特位串,接收的比特位串组成一个文档集C和文档集S的交集的multi-GBF,记做所述multi-GBFr是随机串;
第一方在中查询文档Ca的每一个指纹元素,得到若干个交集其中Ca为第一方文档集C的第a个文档,的下标b是Ca的指纹元素在第二方的来源ID;
根据上述交集得到第一方的第a个文档Ca和第二方的文档Sb之间的相似度为其中,为集合中元素的数量,Sb为第二方文档集S的第b个文档,t为每个文档提取的MinHash指纹数量。
2.如权利要求1所述的方法,其特征在于,在不经意传输过程中,第二方发送的m对λ比特长的比特位串的形式为且等于multi-GBFS[i],等于multi-GBFr[i];其中所述multi-GBFS[i]中的i为multi-GBFS的第i个比特位,所述multi-GBFr[i]中的i为multi-GBFr的第i个比特位,且0≤i≤m-1。
3.如权利要求2所述的方法,其特征在于,当不经意传输协议的选择向量BFC[i]等于0时,第一方接收当不经意传输协议的选择向量BFC[i]等于1时,第一方接收其中BFC[i]中的i为BFC的第i个比特位,且0≤i≤m-1。
4.如权利要求2所述的方法,其特征在于,所述multi-GBF包含一个长度为m的存储空间和k个哈希函数,且multi-GBF的存储单元存储一个λ比特长的比特位串;所述λ比特长的比特位串包括λ1比特长的元素标识、λ2比特长的来源ID标识和λ3比特长的next标识;当multi-GBFS[i]是next比特位串时,multi-GBFr[i]和multi-GBFS[i]的内容相同;所述next比特位串是指next位置存储的比特位串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710930206.8/1.html,转载请声明来源钻瓜专利网。