[发明专利]搜索装置、搜索方法和聚类装置有效

专利信息
申请号: 201310017672.9 申请日: 2013-01-17
公开(公告)号: CN103218391B 公开(公告)日: 2017-10-13
发明(设计)人: 冈本洋 申请(专利权)人: 富士施乐株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三友知识产权代理有限公司11127 代理人: 李辉,黄纶伟
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 装置 方法
【说明书】:

技术领域

本发明涉及一种搜索装置、搜索方法和聚类装置。

背景技术

Page,L.et al.Stanford Digital Library Technologies Project(1998),[在线],[2011年1月10日搜索的]互联网(http://www-db.stanford.edu/~backrub/pageranksub.ps)(非专利文献1)公开了一种网页排名算法,其根据由网页和超链接形成的图形结构适当地定义表示各网页(节点)的重要度的“网页排名”。示意性地,网页排名算法根据在马尔可夫链的稳态中分配给各个节点的“概率”来定义各个节点的网页排名值。该算法是基于具有下述过程(马尔可夫随机漫步)的模拟,在所述过程中,人的代表在从节点到节点的图形上跟随链接随机地漫步。代表在一个节点存在的概率越高,该节点的网页排名值变得越高。

另外,非专利文献1还描述了个性化网页排名(下面,简称为“PPR”)算法。典型的网页排名算法不依赖于特定的时刻,而PPR算法计算添加有各个用户的兴趣或关注以及过去的搜索行为的个性化网页排名。换言之,在PPR中,其中根据过去的搜索历史预先知道的用户感兴趣的网页(节点)组(例如,与用户的搜索查询一致的网页组)用作种节点组,并且假设代表(即使在没有链接的情况下)以特定速率从网络上的各个节点跳到该组中包括的种节点,从而计算网页排名。因此,靠近种节点组的节点组的网页排名高于使用典型的网页排名算法的情况。如果将要计算与用户在特定时刻的关注(这可以表示为搜索历史)匹配的PPR,则要求基本上等于计算典型的网页排名的时间的时间。从所需时间的观点来看,每次获得来自用户的搜索查询(下面称为“用户查询”)时根据用户的最新的关注计算PPR是不现实的。

Haveliwara,T."Topic-Sensitive PageRank:A Context-Sensitive Ranking Algorithm for Web Search,"IEEE Transactions on Knowledge and Data Engineering,15,pp.784-796,2003年6月(非专利文献2)公开了一种使用改进的网页排名算法高速执行网页搜索的方法。在该方法中,没有执行根据各个用户查询的马尔可夫链计算,而是预先(即,离线)使用PPR算法获得多个种节点组中的每一个的重要度。各个种节点组表示特定“主题”,即,“领域”。另外,每次接收到用户查询(即,在线)时,获得用户查询对于各个领域的归属度,并且使用对于各个领域的归属度作为系数来计算预先获得的与领域相关的重要度的线性和。

由于在原始的PPR算法中在计算时间方面不允许通过对于各个用户查询计算马尔可夫链来详细地获得依赖于查询的节点重要度排名,因此该方法仅通过适当地添加针对各领域获得的节点重要度或排名来获得其替代物。

另外,非专利文献3至7公开了作为现有技术的网络聚类或者从网络提取群组。

在Newman,M.E.J.&Girvan,M.“Finding and evaluating community structure in networks.”Physical Review E69,026113(2004)(非专利文献3)中公开的方法中,对于各个链接计算“介数”,并且具有高介数的链接被视为将群组彼此连接的链接,并且它们被顺序地分割,从而将网络划分为聚类(群组)。在该方法中获得的聚类没有彼此交叠(即,不同的聚类没有共享同一节点)。

在Airoldi,E.M.,Blei,D.M.&Xing,E.P.“Mixed membership stochastic Blockmodels.”Journal of Machine Learning Research9,1981-2014(2008)(非专利文献4)和Ball,B.Karrer,B.&Newman,M.E.J.“Effective and principled method for detecting communities in networks.”Physical Review E84,036103(2011)(非专利文献5)中公开的方法中,使用各个链接对于各群组的归属度作为参数等等来建立网络的随机生成模型。目标网络的链接结构(数据)被分配到其以定义似然性,并且获得用于使似然性最大的参数,从而获得形成网络的聚类(群组)。在该方法中,允许聚类之间的交叠,并且能够执行聚类或群组提取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士施乐株式会社,未经富士施乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310017672.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top