[发明专利]一种网页分类方法和设备有效

专利信息
申请号: 201110249270.2 申请日: 2011-08-26
公开(公告)号: CN102955810A 公开(公告)日: 2013-03-06
发明(设计)人: 徐萌;何洪凌;胡珉;罗治国;孙少陵;陶涛;陈婷;张新访;李成华 申请(专利权)人: 中国移动通信集团公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鑫媛睿博知识产权代理有限公司 11297 代理人: 龚家骅
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 分类 方法 设备
【权利要求书】:

1.一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:

根据待分类网页的URL查询URL类别库;

如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。

2.如权利要求1所述的方法,其特征在于,所述根据该URL的上层URL查询URL类别库,包括:

步骤A、生成该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL;

步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C;否则转至步骤A;

步骤C、获取查询到的URL的预测类别。

3.如权利要求1所述的方法,其特征在于,所述URL类别库的生成过程,包括:

遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;

判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。

4.如权利要求1-3之一所述的方法,其特征在于,除最低层级的URL以外,其余层级的URL的预测类别是根据该URL的下一层级URL的预测类别确定的。

5.如权利要求4所述的方法,其特征在于,根据下一层级的URL的预测类别确定其上一层级的URL的预测类别,具体为:

从所述URL类别库中获取其上一层级URL为该待预测类别的URL的所有URL;

确定获取到的URL中各预测类别的URL的数量;

将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。

6.如权利要求4所述的方法,其特征在于,URL类别库中的各URL还各自对应有预测概率;

根据下一层级的URL的预测类别和预测概率确定其上一层级的URL的预测类别和预测概率,具体为:

从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL;

对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;

将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。

7.如权利要求1所述的方法,其特征在于,当所述URL类别库中增加了新的URL时,生成该URL的上层URL,并根据所述URL的上层URL查询URL类别库,若查询到匹配的URL,则更新该上层URL的预测类别;若未查询到匹配的URL,在URL类别库中记录该上层URL及对应的预测类别。

8.如权利要求1所述的方法,其特征在于,确定URL的上一层级URL,具体为:

根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。

9.一种网页分类设备,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括:

上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL;

查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;

确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110249270.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top