[发明专利]一种网页分类方法和设备有效

专利信息
申请号: 201110249270.2 申请日: 2011-08-26
公开(公告)号: CN102955810A 公开(公告)日: 2013-03-06
发明(设计)人: 徐萌;何洪凌;胡珉;罗治国;孙少陵;陶涛;陈婷;张新访;李成华 申请(专利权)人: 中国移动通信集团公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鑫媛睿博知识产权代理有限公司 11297 代理人: 龚家骅
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 分类 方法 设备
【说明书】:

技术领域

发明涉及互联网技术领域,尤其涉及一种网页分类方法和设备。

背景技术

随着移动互联网技术的高速发展,移动互联网用户的数量越来越多,因此,对移动互联网用户的行为分析也逐渐成为一个研究热点。

现有技术中,通常根据移动互联网用户的访问日志对用户行为进行分析。具体的,移动互联网用户的访问日志存放在WAP(Wireless Application Protocol,无线应用通讯协议)网关中,该访问日志中记录了用户所访问的网页的URL(Universal Resource Locator,统一资源定位符),通过查询URL类别库可以获知用户所访问的网页类别,进而获知对应用户的行为偏好。

其中,现有网页分类方法可以包括以下步骤:

1、爬虫爬取网页内容;

2、对网页内容进行解析,获取相应文本;

3、对文本进行分析、获取关键词;

4、利用算法模型,例如朴素贝叶斯或者SVM等文本分类算法模型,进行分类;其中,算法模型通常提前根据训练集训练得到。

通过上述方法可以对用户所访问的网页(或网页对应的URL)进行分类,进而可以建立URL类别库。其中,现有技术中的URL类别库可以如表1所示。

表1

在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:

现有技术中,URL类别库是一个简单的扁平数据表,条目之间没有任何关系,为了能准确查询到用户所访问的网页的类别,需要存储大量的数据,且需要实时更新类别库。而由于互联网发展迅速,新增网页速度极快,即使每日做一次URL类别库更新,URL类别库并不可能保存所有网页的分类。此时,可采用的方法是实时抓取、预测的方法,预测一个网页的类别可能时间需要约数十分钟,如果批量预测,虽然可以并行化,但时间仍然很长,至少小时级别。

发明内容

本发明实施例提供一种网页分类的方法和设备,以提高确定网页类别的效率和成功率。

为了达到上述目的,本发明实施例提供一种网页分类方法,应用于基于URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:

根据待分类网页的URL查询URL类别库;

如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。

本发明实施例还提供一种网页分类设备,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括:

上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL;

查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;

确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。

与现有技术相比,本发明实施例通过对URL进行层级划分,在URL类别库中记录各层级URL,并对应记录各URL的预测类别;当需要确定待分类网页的类别时,获取该待分类网页的URL,并查询URL类别库中是否记录有该URL;当URL类别库中未记录有相同的URL时,根据该URL的上层URL的预测类别确定为待分类网页的类别,提高了确定网页类别的效率和成功率。

附图说明

图1为本发明实施例提供的URL类别库生成流程示意图;

图2为本发明实施例提供的网页分类方法流程示意图;

图3为本发明实施例提供的网页分类设备的结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110249270.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top