[发明专利]一种面向密文搜索的分词组织方法和聚类方法无效
申请号: | 201210222787.7 | 申请日: | 2012-06-28 |
公开(公告)号: | CN102708216A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 陆月明;马良;袁玉宇 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 搜索 分词 组织 方法 | ||
技术领域
本发明涉及应用于搜索引擎的一种面向密文搜索的分词组织方法和聚类方法,属于计算机科学技术领域。
背景技术
目前互联网上的服务产生的数据量越来越大,典型的互联网服务(如微博、搜索引擎、社区网站、视频应用等)产生了超大规模的数据量,这样,大数据处理技术应运而生,大数据处理技术其核心是一种数据密集型计算技术,典型的是云计算技术。
伴随着云计算技术的出现,包括云存储技术、云搜索技术、虚拟机计算技术的出现,应用互联网云计算的服务全部集中于公共数据的服务,无论搜索引擎还是微博,在一定程度上公开的全是被认为不是太私密的数据。随着微博等实名制的出现,用户私有数据的保护提到日程上来了,而云计算是第三方提供的计算,这种计算的安全性受到用户及高端客户的质疑。云数据的安全成为最大的一个挑战,云计算中数据隐私保护技术成为第一需要解决的问题。
计算资源、网络资源和存储资源的安全技术目前在各自的领域发展着。随着云计算的发展,人们对计算及存储的安全研究显得更加迫切。计算的安全性及可信计算方面研究方向很多,但针对云计算的加密计算是2010年以后发展起来的,目前主要有两个方向,一个量子计算机安全计算方向,另一个是同态加密算法。这两个方向的研究成果目前还没有到达实际应用,主要是全同态加密算法和量子计算机技术都不是很成熟,部分技术和关键问题还在攻克。
本发明提出一种面向密文搜索的分词组织方法和聚类方法,该发明通过内容理解和加密数据计算两种方法结合的策略,通过明文分词方法来理解文档内容,通过加密数据计算(聚类)来实现隐私保护及信息聚类。
发明内容
本发明“一种面向密文搜索的分词组织方法和聚类方法”包括两部分:客户端文档分词组织方法、服务器端加密数据聚类方法。
(1)客户端文档分词组织方法
分词(如“中文分词”)是一种基于“语义”对文章、段落(这里称为“文档”)进行划分词组的技术,是搜索引擎中的一项重要的技术。目前中科院和复旦大学等都进行了研究,并取得了很好的效果。分词模块在搜索引擎中的组织是设置在服务器端的(如百度等云计算服务器,这里称为公有设备),也就是文档(包括HTML格式文档、微软的Word格式文档、PDF格式文档)从网络中获取后,服务器端马上对文档进行分词,由文档变成“词组”。这一种在服务器端的分词组织方式是针对公共服务的一种分词组织方式。这一种组织方式的挑战是文档对服务器是透明的,不能保护文档的隐私。
而面向非公共服务的系统中,如在公有云中建有私有云网络的应用,特别是用户私有信息或单位私有信息,这些信息的隐私性需要保护,不能被提供公共服务的服务器知道,所以需要设计出一种“新型的分词组织方式”。
本专利提出的客户端文档分词组织方法是在客户端(包括人们的计算机、手机的私有接入设备)进行的一种分词组织方式,存在于客户端私有设备的分词模块中,以避免在分词的过程中泄露客户的隐私信息。为了保持原有的信息,必须对原文档进行特征抽取和分词。
与公用搜索引擎(如百度)不同,私有文档的搜索的文档主要来自用户本身产生的文档,用户对这些文档在服务器端公用设备的存储存在戒心,所以这些文档的明文不可能存在服务器端,但为了在服务器端实现存储、搜索,客户端私有设备必须承担一部分计算任务:客户端分词。
客户端分词方法是一种新型的计算方法,客户端分词模块存在于如图1所示的结构中,该模块主要包括对文档进行分词、分词加密、文档特征向量的抽取、文档加密、文档概要加密五项功能。
(1)文档分词。文档进行分词是指对原始文档按照语义进行分词,与通用的文档分词具有相同的功能。
(2)分词加密。分词加密是指为了把分词存储到服务器上和为下一步的基于分词的聚类和搜索而进行的分词加密,加密后,存储到服务器上的分词为分词密文。
(3)文档特征向量的抽取。文档特征向量的抽取是为了实现文档的聚类而实现的文档量化描述,这部分是基于明文抽取,在服务器上保存。
(4)文档加密。文档加密是为了在服务器上保存文档数据而采取的加密算法。
(5)文档概要。对用户的文档进行概要,有利于文档的搜索。
表1描述了客户端分词模块的主要操作以及内容在客户端私有终端设备和服务器端公有设备之间存储的内容。可以看出,为了保护内容隐私,所有的分词活动和加密活动必须在客户端私有终端设备上完成。
表1主要的操作和内容类型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210222787.7/2.html,转载请声明来源钻瓜专利网。