[发明专利]一种对海量热点页面筛选排序的算法无效

专利信息
申请号: 200810197813.9 申请日: 2008-11-24
公开(公告)号: CN101414308A 公开(公告)日: 2009-04-22
发明(设计)人: 敖伟成;叶猛;李磊 申请(专利权)人: 武汉虹旭信息技术有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉宇晨专利事务所 代理人: 黄瑞棠
地址: 430074湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 海量 热点 页面 筛选 排序 算法
【说明书】:

技术领域

发明属于计算机数据处理领域,尤其涉及一种对海量热点页面(URL)筛选排序的算法。运用此算法可以高效实现从现网的站点页面中按排名要求(如访问次数最多的前100名)筛选出相应的热点站点页面,并在此基础上对选中的站点页面进行排序。

背景技术

随着互联网应用的快速发展,对网站的相关指标进行统计分析,从而掌握各种业务的开展情况已成为运营商开展WAP(无线应用协议)业务的有用工具;然而实现从现网中的URL中过滤出访问次数最多的前100名之类的统计和排名,从目前来看,一般的实现方法是对网络中所有的站点页面的访问次数进行排名,然后取出排名最靠前的100名。

这种排名算法看起来直观、易于实现,并且在站点页面数量不是很大的情况下,可以保证排序的效率。但是,目前网络应用空前扩展,站点页面数量成指数倍增长,这种排名算法的效率已与网络技术的发展速度不相适应,已远远不能满足实际的需要。

发明内容

本发明的目的是针对目前的排名算法在处理站点页面数量较多的最值排名中效率不高的问题,提供一种对海量热点页面筛选排序的算法,即采用一些算法和技术,使在这种情况的排名可以在对URL访问次数过滤的基础上进行,排除排名对象数量多少对排名效率的影响,极大地提高了排名的效率和运行的稳定性。

本发明的目的是这样实现的:

本发明主要包括一种统计表组织结构、一种统计采样算法和一种筛选算法。

一、一种用于记录统计信息的统计表组织结构

统计表使用hash+rb_tree构造,即主表是hash,在每个bucket中使用一个rb_tree来组织统计节点,用于保存总的统计指标信息及各统计项的关键信息。

二、一种统计采样算法

主要是设定最低采样门限,根据站点页面查找(或创建)统计节点,当在统计表中有与该站点页面对应的统计节点时,统计表中的“1小时内累计点击总数”加1且与该站点页面对应的采集节点中的“节点创建以来的点击次数”加1;反之,若统计表中没有与该站点页面对应的统计节点,则在“记录表中统计节点的总数目”小于最低采样门限的情况下,直接在统计表中添加新的采集节点,否则启动节点采样过程,使采样节点的增长速度减缓,确保排序的效率和精度。

三、一种筛选算法

主要是设定最低筛选门限,当统计表内节点数目大于最低筛选门限时,筛选过程启动。筛选过程首先预估有效节点数目、预估点击次数、合理选择筛选因子,然后在对上述指标简单运算的基础上,合理确定筛选条件,开始筛选。若一次筛选完成后,尚未达到筛选要求,则在上一次筛选的基础上,基于上一次的经验,对筛选条件适当修正,从而不断缩小筛选目标。如此反复筛选,直到满足筛选要求。

本发明具有下列优点和积极效果:

1、本发明通过对统计表的组织结构和统计节点的组织结构的设计,可以简明、实用地记录URL的统计信息;

2、通过高效的采集及筛选算法的设计,在对站点页面访问次数过滤的基础上进行排名,即使在站点页面数量较多的情况下,也能实现高效、精确排名,极大地提高了排名的效率;

3、该思想的扩展也可应用于统计目标数量大而只要求对最前或最后N名排名的情况。

附图说明

图1是本算法的总体模块结构图;

图2是统计采样模块的工作流程图;

图3是预估子模块的工作流程图;

图4是首次筛选子模块的工作流程图;

图5是再次筛选模块的工作流程图;

图6是调整筛选子模块的工作流程图。

其中:

1—统计采样模块,

  1.1—统计子模块,

  1.1—采样子模块;

2—筛选模块,

  2.1—预估子模块,

  2.2—首次筛选子模块,

  2.3—再次筛选子模块,

  2.4—调整筛选子模块;

3—排名模块。

英译汉:

URL—Uniform Resource Locator,WWW上用来标识一信息页的语法形式,本文译为海量热点页面;

WAP—Wireless Application Protocol,无线应用协议。

具体的实施方式

以下结合附图和实施例详细说明:

一、统计表组织结构

前述,统计表使用hash+rb_tree构造,即主表是hash,在每个bucket中使用一个rb_tree来组织统计节点,用于保存总的统计指标信息及各统计项的关键信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹旭信息技术有限责任公司,未经武汉虹旭信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810197813.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top