[发明专利]一种高效可扩展的安全的文档相似性计算方法和装置有效

专利信息
申请号: 201710930206.8 申请日: 2017-10-09
公开(公告)号: CN107885705B 公开(公告)日: 2020-12-15
发明(设计)人: 陈小军;于晓杰;时金桥;申立艳;文新;张闯 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F40/126 分类号: G06F40/126;G06F16/93
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 高效 扩展 安全 文档 相似性 计算方法 装置
【权利要求书】:

1.一种高效可扩展的安全的文档相似性计算方法,其步骤包括:

第一方根据MinHash文档指纹算法将第一方文档集C中所有文档表示成固定数量指纹的指纹集合,并根据第一方文档集C构建一Bloom filter,即布隆过滤器,记做BFC;第一方文档集C的存储结构为正排索引;

第一方将BFC作为不经意传输协议的选择向量,并向第二方发送连接请求;其中所述第二方亦根据MinHash文档指纹算法将第二方文档集S中所有文档表示成固定数量指纹的指纹集合;第二方文档集S的存储结构为倒排索引,根据倒排索引生成一个multi-GBF,即多来源混淆布隆过滤器,记做multi-GBFS

第一方接收第二方发送的m对λ比特长的比特位串,通过不经意传输协议,第一方根据选择向量BFC当前位i的取值是0还是1,选择接收m对λ比特长的比特位串中multi-GBFr或multi-GBFS的第i个比特位串,接收的比特位串组成一个文档集C和文档集S的交集的multi-GBF,记做所述multi-GBFr是随机串;

第一方在中查询文档Ca的每一个指纹元素,得到若干个交集其中Ca为第一方文档集C的第a个文档,的下标b是Ca的指纹元素在第二方的来源ID;

根据上述交集得到第一方的第a个文档Ca和第二方的文档Sb之间的相似度为其中,为集合中元素的数量,Sb为第二方文档集S的第b个文档,t为每个文档提取的MinHash指纹数量。

2.如权利要求1所述的方法,其特征在于,在不经意传输过程中,第二方发送的m对λ比特长的比特位串的形式为且等于multi-GBFS[i],等于multi-GBFr[i];其中所述multi-GBFS[i]中的i为multi-GBFS的第i个比特位,所述multi-GBFr[i]中的i为multi-GBFr的第i个比特位,且0≤i≤m-1。

3.如权利要求2所述的方法,其特征在于,当不经意传输协议的选择向量BFC[i]等于0时,第一方接收当不经意传输协议的选择向量BFC[i]等于1时,第一方接收其中BFC[i]中的i为BFC的第i个比特位,且0≤i≤m-1。

4.如权利要求2所述的方法,其特征在于,所述multi-GBF包含一个长度为m的存储空间和k个哈希函数,且multi-GBF的存储单元存储一个λ比特长的比特位串;所述λ比特长的比特位串包括λ1比特长的元素标识、λ2比特长的来源ID标识和λ3比特长的next标识;当multi-GBFS[i]是next比特位串时,multi-GBFr[i]和multi-GBFS[i]的内容相同;所述next比特位串是指next位置存储的比特位串。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710930206.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top