[发明专利]面向文本检索服务的用户隐私保护方法有效

专利信息
申请号: 201710341742.4 申请日: 2017-05-15
公开(公告)号: CN107292189B 公开(公告)日: 2018-12-25
发明(设计)人: 吴宗大;郑城仁 申请(专利权)人: 温州大学瓯江学院
主分类号: G06F21/62 分类号: G06F21/62;G06F17/30
代理公司: 杭州杭诚专利事务所有限公司 33109 代理人: 王江成
地址: 325027 浙江省温州市瓯海区瓯海*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 文本 检索 服务 用户 隐私 保护 方法
【权利要求书】:

1.面向文本检索服务的用户隐私保护方法,其特征在于,所述用户隐私保护过程如下:

首先,给出面向文本检索服务的隐私保护框架;

然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;

最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法;

所述隐私保护框架由一个不可信服务器端和一组可信客户端组成,该隐私保护框架的数据处理过程如下:

客户端的“用户伪查询构造”部件用于分析用户查询q0的分布特征,结合客户端的“历史查询序列”构造生成一系列伪查询:q1,q2,...,qn;然后,将这些伪查询连同用户真实查询q0按照随机的次序,逐个提交给服务器端的检索服务算法;

所述历史查询序列包括用户真实查询序列以及伪查询序列;

客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集:中筛选出对应用户真实查询q0的结果同时抛弃其它多余查询结果其中,对应查询qi,然后,将最终结果返回给外部用户;

所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件:

一是能有效地混淆用户真实查询,让伪查询与用户真实查询拥有相似的特征分布,具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布,以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询,从而保护用户查询隐私;

二是能有效地掩盖用户查询背后蕴含的敏感主题,以保护用户主题隐私,让伪查询关联的主题应与用户敏感主题语义无关,以降低用户敏感主题在不可信服务器端的显著性;

给出隐私保护模型下的文本检索服务的攻击模型,该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题;

为了保护用户的查询隐私,“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征,这种分布特征包括三个方面:用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征;

定义1,定义主题相关和查询主题;

让Q表示查询空间,让表示主题空间;给定任意查询q∈Q和任意主题u∈U,它们之间的相关性可表示为函数Re(q,u):Q×U→R+,其中R+表示正实数;查询q背后所蕴含的查询主题由与q相关的主题组成,即:

其中,阀值θ1用来移除主题空间中与查询q相关性较小的主题,表示查询q相关的查询主题;

在某一时间段内的用户查询会围绕若干个固定主题展开,即用户查询序列会表现出富有规律的主题关联性特征,这种主题关联性特征表现为:主题频度和主题连续,其中,主题频度是指当前查询主题在历史查询序列中的出现频度;主题连续是指当前查询的主题关于历史查询序列的连续性;以下分别给出它们的定义;

定义2,定义主题频度和主题频度向量;

任意查询主题u∈U关于查询序列的出现频度定义如下:

其中,

任意查询q∈Q关于查询序列的主题频度向量定义如下:

其中,

定义3,定义主题连续和主题连续向量;

假设qn为查询序列的末尾查询,则任意查询主题u∈U关于查询序列的主题连续性定义如下:

任意查询q∈Q关于查询序列的主题连续向量定义如下:

其中,

定义4,定义词频度和词频度向量;

让T表示关键词空间;任意关键词t∈T关于查询序列的出现频度定义如下:

其中,表示查询q包含的关键词集合;任意查询q∈Q关于查询序列的词频度向量定义如下:

其中,

定义5,定义词特征和词特征向量;

给定任意关键词t∈T,它的词特征函数可定义为Fp(t):T→R+,它返回关键词t的某项特征值;任意查询q∈Q的某一词特征向量定义如下:

Fp(q)=(Fp(t1),Fp(t2),...,Fp(tn))

其中,Fp(ti)≤Fp(ti+1);

一个关键词可表现出多个特征,因此,可建立多个词特征函数,即一个查询可拥有多个关键词特征向量;

现在,基于定义2至定义5,可进一步定义查询之间的特征相似性;

定义6,定义查询特征相似性;

查询特征相似性可通过历史相似性和当前相似性进行度量;

历史相似性是指查询主题频度向量、查询主题连续向量和查询关键词频度向量,是用于度量查询关于历史序列的特征相似性;当前相似性是指查询词特征向量,用于度量查询之间的当前特征相似性;

假定为查询q∈Q总共建立了n个特征分布向量,分别记作:给定任意查询q1和q2,记它们对应的历史查询序列分别为和则q1和q2之间的特征相似性可度量如下:

其中,dist表示欧拉距离,0≤ai<1,0≤bi<1,

基于定义6,可度量伪查询关于真查询的特征似真性,以确保伪查询对用户真查询的混淆效果,使得伪查询难以被攻击者根据特征排除,从而确保用户查询隐私安全性;然而,基于前文的分析知道:除了确保用户查询隐私安全之外,“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性,即不仅需要阻止攻击者获知用户查询本身,还要阻止攻击者获知用户查询背后蕴含的敏感主题;这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题,由用户预先指定;用主题显著性来度量主题在查询序列中的暴露程度;

定义7,定义敏感主题显著性;

任意主题u∈U关于查询序列的显著性定义如下:

其中,表示主题u关于查询序列的出现频度;任意主题u∈U关于查询序列集的显著性可定义为:

根据隐私保护框架和攻击模型,当攻击者无法识别出用户查询本身的时候,他只能通过分析客户端提交的历史查询序列进行猜测;所以,敏感主题在这些历史查询序列中的显著性越大,则攻击者猜测出敏感主题的可能性也就越大;为此,可用敏感主题显著性来度量用户的敏感主题隐私;至此,基于定义6的查询特征相似性和定义7的敏感主题显著性,可进一步形式化定义用户隐私安全性模型,以保护文本检索服务中的用户查询隐私和敏感主题隐私;

定义8,定义用户查询安全性;

给定一个用户查询序列和若干个伪查询序列其中,假设为用户敏感主题集合;如果伪查询序列与用户查询序列之间满足以下条件,则称:伪造查询序列集能有效地确保真实查询序列的(μ,ρ)-隐私安全性;

用户查询安全性;每个伪查询应与用户真查询关键词不重叠,且特征分布相似,

即:

其中,0<μ<1,表示对应伪查询的用户查询;该条件保证了各个伪查询与用户真查询之间的特征相似性,使得攻击者难以找出用户真实查询,从而使得真实用户查询得到有效隐藏;

敏感主题安全性;伪查询应能够有效地降低敏感主题的显著性,即:

其中,0<ρ<1;该条件保证了各个用户敏感主题的显著性能被伪查询序列有效地降低,在无法排除伪查询的前提下,使得攻击者难以根据主题显著性分析,获取用户敏感主题;

以上8个定义构成了面向文本检索服务的隐私保护模型。

2.根据权利要求1所述面向文本检索服务的用户隐私保护方法,其特征在于,主题相关性的定义1和词特征的定义5都还缺具体函数,而其它定义直接或间接地建立在这两个定义基础之上;因此,给出查询主题相关性函数和词特征函数是隐私保护模型求解的首要关键;

为了识别出用户查询q蕴含的查询主题,将使用概念标题来表示查询关键词,而使用概括性较好的目录表示查询主题;然后,通过使用维基百科的概念空间作为中间参考,将查询q从关键词空间映射到主题空间U中的一组相关主题

让A表示概念空间,由维基百科的所有概念实体组成;让Re(a,u)表示任意概念a∈A和任意主题u∈U之间的相关性,Re(q,a)表示查询q和概念a之间的相关性;利用概念空间A作为中间参考,查询主题相关性函数可表示为以下公式:

让表示任意概念a∈A所有标题的集合;让表示查询q包含的关键词集合,概念a和查询q之间的相关性定义为a的标题出现在q中的数量:

让作为属于主题u的概念集合,即中的每一个概念根据维基百科的分类系统都可到达主题u;让depth(a,u)表示概念a根据维基百科分类系统到达主题u的最短路径长度,其值可提前确定;概念a和主题u间的相关性定义如下:

至此,确定了查询主题相关性函数,因此,也就确定了查询q蕴含的主题

然而,一个关键词可能与多个概念相关,而一个概念又可能与多个主题相关;所以,中的许多主题可能实际上与查询q并不实际相关;

若与查询q相关的任意概念a,即Re(q,a)≠0,以及与概念a相关的任意两个主题u1和u2,即

如果Re(q,u1)>Re(q,u2),那么相比于主题u2,概念a在查询q中用来描述主题u1

假设q的相关查询序列为如果u1关于的出现频度大于u2关于的出现频度,如果那么相比主题u2,概念a在查询q中用来描述主题u1

让表示与查询q相关概念集合,即对于每个概念确定a在查询q中最可能相关的唯一主题,从而将不想要的其它主题从中移除,以获取真正与查询相关的主题;

设F1、F2和F3为词特征函数;

关键词的特性包括特异性、同义性和多义性,参考定义5的词特征函数均可提前获取;

给定任意关键词t∈T,其特异性值定义为从其对应的概念a到维基百科分类系统中根目录的最短路径的长度;

给定任意关键词t∈T,如果其对应的概念a的标题数量不小于2,其同义性值定义为1;否则,其同义性值定义为0;

给定任意关键词t∈T,如果它对应多个概念,其多义性值定义为1;否则,定义为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710341742.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top