[发明专利]基于用户日志分析的分布式倒排索引组织方法有效
申请号: | 201210169721.6 | 申请日: | 2012-05-24 |
公开(公告)号: | CN102722553A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 陈岭;李卓豪 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 日志 分析 分布式 索引 组织 方法 | ||
技术领域
本发明涉及计算机信息检索技术领域,具体涉及一种基于用户日志分析的分布式倒排索引组织方法。
背景技术
随着互联网技术的不断发展,当今社会每天都会产生大量的信息,这些信息往往会以网页、图片、视频、音频等非结构化数据的形式展现。面对如此浩如烟海的数据量,人们要想从中获得符合自己需求的信息,如大海捞针般困难。因此,在这个海量信息的时代,要想快速、效地获得有用信息,必须借助各式各样的信息检索系统(Information Retrieval System,IRS)。IRS的主要目的是为人们提供有效的信息服务,是根据特定信息需求建立起来的,实现了信息搜索、加工、存储和检索等功能的程序化系统。从广义上来讲,任何具有了信息存储和检索功能的系统,都可以称之为IRS系统。
IRS系统的种类繁多,如数字图书馆、搜索引擎等,但此类系统都有针对信息数据的索引。随着信息数据量的不断增加,索引也必然会不断膨胀,最终导致存储和检索效率变得十分低下。为了解决这个问题,一般采用分布式索引,将原来存储在单台机器上的庞大的索引切割成大小合适的索引碎片,并将这些索引碎片分布到不同的机器上,形成索引集群,从而把原先对巨大单一索引的访问转换为对索引集群的查询,索引集群则通过合适的索引分割方式、查询路由策略以及最终的结果合并实现快速而有效的查询。由此可以看出,分布式索引系统已经成为IRS系统乃至信息领域里一个至关重要的组成部分,要实现海量数据的有效管理,就必须先实现高性能的分布式索引系统。
在倒排索引的分布式处理过程中,最重要的问题之一就是索引的分割切片。目前最主要有三种方式:“全局分割”、“局部分割”和“混合分割”。
“全局分割”也叫基于“文档”的分割,每块索引碎片所包含的信息都具有全局意义。基于“文档”的划分策略虽然使整个索引结构易于维护,节点之间的负载更加均衡、但是每次查询所有节点都要参与,系统资源浪费严重。
而在“局部分割”中,又叫基于“词”的分割,每块索引碎片所包含信息只具有局部的意义,即只针对某个子数据集的索引。基于“词”的划分策略能有效减少每次参与查询的节点数,增大整个系统的吞吐,但由于“词”之间被查询频率存在很大差别,容易造成节点间的负载不均。
这两种分割方式在不同的应用坏境和查询条件下各有优劣,出于各取其优的考虑,出现了“混合分割”的分片组织方式,“混合分割”的基本思想是部分“全局”部分“局部”,而不同方法的区别在于如何划分“全局”与“局部”,以及这两部分如何交互。现有“混合分割”方法一般设计简单,没有考虑“词”之间被查询频率的差别,总体效果并不理想。
在实现分布式索引系统的基础上,需要利用查询路由来从分布式索引系统中获取查询结果。的查询路由是建立在“索引分割”基础之上的查询节点选择,其一方面利用索引分片信息选择合适的索引集群节点进行查询,另一方面在保证结果集准确率的前提下,尽可能减少参与查询的节点,同时为集群的负载均衡、索引分片副本调整等方法提供依据。
发明内容
本发明要解决的技术问题是提供一种查询开销小、查询效率高、查询性能好、能实现整个系统吞吐量和每次查询响应速度间的平衡、多词查询涉及的节点数少的基于用户日志分析的分布式倒排索引组织方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于用户日志分析的分布式倒排索引组织方法,其实施步骤如下:
1)分析用户查询日志并提取出高频词和非高频词,建立高频词的相关性矩阵,并根据高频词之间的相关性建立高频词关系图;
2)计算每个高频词的负载,根据高频词关系图和高频词的负载对高频词进行聚类;
3)将各个聚类分配到节点之上并建立高频词索引,将非高频词哈希到各个节点之上,并建立非高频词索引;
4)根据所述高频词索引和非高频词索引建立全局的索引表,并根据该索引表进行查询路由。
作为本发明上述技术方案的进一步改进:
所述步骤1)的详细步骤为:
1.1)解析用户查询日志,将用户查询日志进行分词得到查询词典,统计每个词的出现频率并将查询词典按照出现频率降序或者升序排列,从查询词典的高出现频率端截取指定数量的词作为高频词,剩余的词则为非高频词;
1.2)将截取的高频词建立高频词典,将高频词典中的高频词从1到N统一编号建立N×N的高频词的相关性矩阵;
1.3)将所述高频词的相关性矩阵转换为无向图得到高频词关系图。
所述步骤2)的详细步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210169721.6/2.html,转载请声明来源钻瓜专利网。