[发明专利]面向文本检索服务的用户隐私保护方法有效
申请号: | 201710341742.4 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107292189B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 吴宗大;郑城仁 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/30 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 王江成 |
地址: | 325027 浙江省温州市瓯海区瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了面向文本检索服务的用户隐私保护方法,属于文本检索隐私保护技术领域,该方法在用户进行文本检索服务时,能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法。 | ||
搜索关键词: | 面向 文本 检索 服务 用户 隐私 保护 方法 | ||
【主权项】:
1.面向文本检索服务的用户隐私保护方法,其特征在于,所述用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法;所述隐私保护框架由一个不可信服务器端和一组可信客户端组成,该隐私保护框架的数据处理过程如下:客户端的“用户伪查询构造”部件用于分析用户查询q0的分布特征,结合客户端的“历史查询序列”构造生成一系列伪查询:q1,q2,...,qn;然后,将这些伪查询连同用户真实查询q0按照随机的次序,逐个提交给服务器端的检索服务算法;所述历史查询序列包括用户真实查询序列以及伪查询序列;客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集:
中筛选出对应用户真实查询q0的结果
同时抛弃其它多余查询结果
其中,
对应查询qi,然后,将最终结果
返回给外部用户;所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件:一是能有效地混淆用户真实查询,让伪查询与用户真实查询拥有相似的特征分布,具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布,以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询,从而保护用户查询隐私;二是能有效地掩盖用户查询背后蕴含的敏感主题,以保护用户主题隐私,让伪查询关联的主题应与用户敏感主题语义无关,以降低用户敏感主题在不可信服务器端的显著性;给出隐私保护模型下的文本检索服务的攻击模型,该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题;为了保护用户的查询隐私,“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征,这种分布特征包括三个方面:用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征;定义1,定义主题相关和查询主题;让Q表示查询空间,让
表示主题空间;给定任意查询q∈Q和任意主题u∈U,它们之间的相关性可表示为函数Re(q,u):Q×U→R+,其中R+表示正实数;查询q背后所蕴含的查询主题由与q相关的主题组成,即:
其中,阀值θ1用来移除主题空间
中与查询q相关性较小的主题,
表示查询q相关的查询主题;在某一时间段内的用户查询会围绕若干个固定主题展开,即用户查询序列会表现出富有规律的主题关联性特征,这种主题关联性特征表现为:主题频度和主题连续,其中,主题频度是指当前查询主题在历史查询序列中的出现频度;主题连续是指当前查询的主题关于历史查询序列的连续性;以下分别给出它们的定义;定义2,定义主题频度和主题频度向量;任意查询主题u∈U关于查询序列
的出现频度定义如下:
其中,任意查询q∈Q关于查询序列
的主题频度向量定义如下:
其中,
定义3,定义主题连续和主题连续向量;假设qn为查询序列
的末尾查询,则任意查询主题u∈U关于查询序列
的主题连续性定义如下:
任意查询q∈Q关于查询序列
的主题连续向量定义如下:
其中,
定义4,定义词频度和词频度向量;让T表示关键词空间;任意关键词t∈T关于查询序列
的出现频度定义如下:
其中,
表示查询q包含的关键词集合;任意查询q∈Q关于查询序列
的词频度向量定义如下:
其中,
定义5,定义词特征和词特征向量;给定任意关键词t∈T,它的词特征函数可定义为Fp(t):T→R+,它返回关键词t的某项特征值;任意查询q∈Q的某一词特征向量定义如下:Fp(q)=(Fp(t1),Fp(t2),...,Fp(tn))其中,
Fp(ti)≤Fp(ti+1);一个关键词可表现出多个特征,因此,可建立多个词特征函数,即一个查询可拥有多个关键词特征向量;现在,基于定义2至定义5,可进一步定义查询之间的特征相似性;定义6,定义查询特征相似性;查询特征相似性可通过历史相似性和当前相似性进行度量;历史相似性是指查询主题频度向量、查询主题连续向量和查询关键词频度向量,是用于度量查询关于历史序列的特征相似性;当前相似性是指查询词特征向量,用于度量查询之间的当前特征相似性;假定为查询q∈Q总共建立了n个特征分布向量,分别记作:
给定任意查询q1和q2,记它们对应的历史查询序列分别为
和![]()
则q1和q2之间的特征相似性可度量如下:
其中,dist表示欧拉距离,0≤ai<1,0≤bi<1,
基于定义6,可度量伪查询关于真查询的特征似真性,以确保伪查询对用户真查询的混淆效果,使得伪查询难以被攻击者根据特征排除,从而确保用户查询隐私安全性;然而,基于前文的分析知道:除了确保用户查询隐私安全之外,“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性,即不仅需要阻止攻击者获知用户查询本身,还要阻止攻击者获知用户查询背后蕴含的敏感主题;这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题,由用户预先指定;用主题显著性来度量主题在查询序列中的暴露程度;定义7,定义敏感主题显著性;任意主题u∈U关于查询序列
的显著性定义如下:
其中,
表示主题u关于查询序列
的出现频度;任意主题u∈U关于查询序列集
的显著性可定义为:
根据隐私保护框架和攻击模型,当攻击者无法识别出用户查询本身的时候,他只能通过分析客户端提交的历史查询序列进行猜测;所以,敏感主题在这些历史查询序列中的显著性越大,则攻击者猜测出敏感主题的可能性也就越大;为此,可用敏感主题显著性来度量用户的敏感主题隐私;至此,基于定义6的查询特征相似性和定义7的敏感主题显著性,可进一步形式化定义用户隐私安全性模型,以保护文本检索服务中的用户查询隐私和敏感主题隐私;定义8,定义用户查询安全性;给定一个用户查询序列
和若干个伪查询序列
其中,
假设
为用户敏感主题集合;如果伪查询序列与用户查询序列之间满足以下条件,则称:伪造查询序列集
能有效地确保真实查询序列
的(μ,ρ)‑隐私安全性;用户查询安全性;每个伪查询应与用户真查询关键词不重叠,且特征分布相似,即:
其中,0<μ<1,
表示对应伪查询
的用户查询;该条件保证了各个伪查询与用户真查询之间的特征相似性,使得攻击者难以找出用户真实查询,从而使得真实用户查询得到有效隐藏;敏感主题安全性;伪查询应能够有效地降低敏感主题的显著性,即:
其中,0<ρ<1;该条件保证了各个用户敏感主题的显著性能被伪查询序列有效地降低,在无法排除伪查询的前提下,使得攻击者难以根据主题显著性分析,获取用户敏感主题;以上8个定义构成了面向文本检索服务的隐私保护模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710341742.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种控制用户访问权限的方法和装置
- 下一篇:一种信息处理方法及移动终端