[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效

申请号：	201710930206.8	申请日：	2017-10-09
公开（公告）号：	CN107885705B	公开（公告）日：	2020-12-15
发明（设计）人：	陈小军;于晓杰;时金桥;申立艳;文新;张闯	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06F40/126	分类号：	G06F40/126;G06F16/93
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高效扩展安全文档相似性计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高效可扩展的安全的文档相似性计算方法，其步骤包括：

第一方根据MinHash文档指纹算法将第一方文档集C中所有文档表示成固定数量指纹的指纹集合，并根据第一方文档集C构建一Bloom filter，即布隆过滤器，记做BF_C；第一方文档集C的存储结构为正排索引；

第一方将BF_C作为不经意传输协议的选择向量，并向第二方发送连接请求；其中所述第二方亦根据MinHash文档指纹算法将第二方文档集S中所有文档表示成固定数量指纹的指纹集合；第二方文档集S的存储结构为倒排索引，根据倒排索引生成一个multi-GBF，即多来源混淆布隆过滤器，记做multi-GBF_S；

第一方接收第二方发送的m对λ比特长的比特位串，通过不经意传输协议，第一方根据选择向量BF_C当前位i的取值是0还是1，选择接收m对λ比特长的比特位串中multi-GBF_r或multi-GBF_S的第i个比特位串，接收的比特位串组成一个文档集C和文档集S的交集的multi-GBF，记做所述multi-GBF_r是随机串；

第一方在中查询文档C_a的每一个指纹元素，得到若干个交集其中C_a为第一方文档集C的第a个文档，的下标b是C_a的指纹元素在第二方的来源ID；

根据上述交集得到第一方的第a个文档C_a和第二方的文档S_b之间的相似度为其中，为集合中元素的数量，S_b为第二方文档集S的第b个文档，t为每个文档提取的MinHash指纹数量。

2.如权利要求1所述的方法，其特征在于，在不经意传输过程中，第二方发送的m对λ比特长的比特位串的形式为且等于multi-GBF_S[i]，等于multi-GBF_r[i]；其中所述multi-GBF_S[i]中的i为multi-GBF_S的第i个比特位，所述multi-GBF_r[i]中的i为multi-GBF_r的第i个比特位，且0≤i≤m-1。

3.如权利要求2所述的方法，其特征在于，当不经意传输协议的选择向量BF_C[i]等于0时，第一方接收当不经意传输协议的选择向量BF_C[i]等于1时，第一方接收其中BF_C[i]中的i为BF_C的第i个比特位，且0≤i≤m-1。

4.如权利要求2所述的方法，其特征在于，所述multi-GBF包含一个长度为m的存储空间和k个哈希函数，且multi-GBF的存储单元存储一个λ比特长的比特位串；所述λ比特长的比特位串包括λ₁比特长的元素标识、λ₂比特长的来源ID标识和λ₃比特长的next标识；当multi-GBF_S[i]是next比特位串时，multi-GBF_r[i]和multi-GBF_S[i]的内容相同；所述next比特位串是指next位置存储的比特位串。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710930206.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效

专利文献下载