[发明专利]一种快速的层次化文档查询方法有效
申请号: | 201710476244.0 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107291895B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 陈珂;王伟迪;胡天磊;陈刚;伍赛;寿黎但 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/31;G06F16/335;G06F16/2458;G06F40/284 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 层次 文档 查询 方法 | ||
本发明公开了一种快速的层次化文档查询方法。对文档集中的每个文档建立数据模型,对文档进行格式化处理获得文档质心向量和文档标签;生成的文档质心向量作为高维向量空间中的一个点,为每个文档集采用局部敏感哈希方法在内存中构建哈希索引结构;依据查询文本的文档质心向量,采用基于局部敏感哈希思想的查询方法在哈希索引结构中获取一个候选文档集;依据查询文本的文档标签,采用过滤‑细化的层次化框架在候选文档集中获取词移动距离度量下的最近邻文档。本发明设计的层次化查询方法应用于文档分类和检索时在效率和效果上获得了良好的平衡,使得用户在进行词移动距离度量下的文档查询时能够在保证准确性的情况下快速地获取目标文档。
技术领域
本发明涉及了一种快速的层次化文档查询方法,具体涉及到了机器学习领域中的Word2Vec模型、数据库领域中的局部敏感哈希方法以及推土机距离度量下的过滤-细化框架。
背景技术
随着信息技术的发展,人们生产、收集和存储信息的能力不断增强。其中一种主要的信息载体是文档,精确地表示两篇文档之间的相似性在文档检索、文档分类和文档聚类等方向具有广泛的应用。潜在语义分析方法是通过矩阵分解来抽取低维语义信息,主题模型是对文字中隐含主题进行建模的方法。最近,随着深度学习的发展,Word2Vec模型与Doc2Vec模型相继被提出,它们分别是在大规模语料库上学习单词向量与文档向量的表示方式,该表示在一定程度上包含了单词或文档的语义信息。为了有效地使用词向量,词移动距离被提出;遗憾的是,它在效率上存在一定的缺陷。
数据库领域的局部敏感哈希方法是解决高维空间中的近邻查询问题的一种有效方法。局部敏感哈希的基本思想是通过局部敏感哈希函数来进行实现的,它保证了高维空间中距离较近的数据点在局部敏感哈希函数作用下相互碰撞的概率更大而距离较远的数据点相互碰撞的概率更小。对于较小的数据规模,内存中的基于局部敏感哈希思想的哈希表,可以用于在内存中快速地获取目标k近邻;对于较大的数据规模,结合局部敏感哈希思想与B+树的特殊索引结构可以用于在磁盘中快速地获取目标k近邻。
推土机距离是两个概率分布之间距离的一个度量。作为一种相似性度量方式,它已经被广泛应用到信息检索、数据库、多媒体、机器学习等诸多领域。由于推土机距离通常被形式化为一个线性优化问题并可以建模成二分网络的最小费用流,所以它需要一个较大的时间复杂度。推土机距离度量下的索引问题的解决方法主要是基于过滤-细化框架。在过滤阶段,通过推土机距离的下界来确定数据记录是否能够被过滤掉;在细化阶段,通过计算推土机距离来确定是否需要对目标集合进行更新。这些下界主要包括质心与投影、降维、原始-对偶空间、正态分布等等。
发明内容
本发明的目的在于针对现有技术的不足,提供一种快速的层次化文档查询方法。
本发明解决其技术问题采用的技术方案如下:
本发明针对一系列的多个文档集进行处理和查询,一个文档集是多篇文档构成。
本发明采用Word2Vec模型词向量对文档进行处理,然后采用局部敏感哈希的思想在内存中为文档集构建索引结构,并用层次化的文档查询方式从索引结构获得所对应的文档。
所述方法的步骤如下:
1)对文档集中的每个文档建立数据模型,一篇文档的数据模型主要由单词、词向量和单词权重的三部分组成;
2)对文档进行格式化处理获得文档质心向量和文档标签;
3)步骤2)中生成的文档质心向量作为高维向量空间中的一个点,为每个文档集采用局部敏感哈希方法在内存中构建哈希索引结构;
4)用户所输入的查询文本,依据查询文本的文档质心向量,采用基于局部敏感哈希思想的查询方法在哈希索引结构中获取一个候选文档集;
5)依据查询文本的文档标签,采用过滤-细化框架在候选文档集中获取词移动距离度量下的k个最近邻文档,完成查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710476244.0/2.html,转载请声明来源钻瓜专利网。