[发明专利]一种网页分类方法和设备有效
申请号: | 201110249270.2 | 申请日: | 2011-08-26 |
公开(公告)号: | CN102955810A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 徐萌;何洪凌;胡珉;罗治国;孙少陵;陶涛;陈婷;张新访;李成华 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 设备 | ||
1.一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:
根据待分类网页的URL查询URL类别库;
如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
2.如权利要求1所述的方法,其特征在于,所述根据该URL的上层URL查询URL类别库,包括:
步骤A、生成该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL;
步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C;否则转至步骤A;
步骤C、获取查询到的URL的预测类别。
3.如权利要求1所述的方法,其特征在于,所述URL类别库的生成过程,包括:
遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;
判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。
4.如权利要求1-3之一所述的方法,其特征在于,除最低层级的URL以外,其余层级的URL的预测类别是根据该URL的下一层级URL的预测类别确定的。
5.如权利要求4所述的方法,其特征在于,根据下一层级的URL的预测类别确定其上一层级的URL的预测类别,具体为:
从所述URL类别库中获取其上一层级URL为该待预测类别的URL的所有URL;
确定获取到的URL中各预测类别的URL的数量;
将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。
6.如权利要求4所述的方法,其特征在于,URL类别库中的各URL还各自对应有预测概率;
根据下一层级的URL的预测类别和预测概率确定其上一层级的URL的预测类别和预测概率,具体为:
从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL;
对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;
将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。
7.如权利要求1所述的方法,其特征在于,当所述URL类别库中增加了新的URL时,生成该URL的上层URL,并根据所述URL的上层URL查询URL类别库,若查询到匹配的URL,则更新该上层URL的预测类别;若未查询到匹配的URL,在URL类别库中记录该上层URL及对应的预测类别。
8.如权利要求1所述的方法,其特征在于,确定URL的上一层级URL,具体为:
根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。
9.一种网页分类设备,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括:
上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL;
查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;
确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110249270.2/1.html,转载请声明来源钻瓜专利网。