[发明专利]一种站点资源管理方法及装置在审
| 申请号: | 201210587855.X | 申请日: | 2012-12-31 |
| 公开(公告)号: | CN103049557A | 公开(公告)日: | 2013-04-17 |
| 发明(设计)人: | 崔建伟;李伟刚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 站点 资源管理 方法 装置 | ||
技术领域
本发明涉及互联网应用技术领域,特别涉及一种站点资源管理方法及装置。
背景技术
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中,通常根据网页的内容对网页的类型进行划分,但因计算机自身并不具有主动判断能力,使用这一方法的效率不高。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。
为此,本发明的第一个目的在于提出一种站点资源管理方法,根据网页结构等因素针对网页的网页类型进行分类,为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。
为达到上述目的,本发明第一方面的实施例提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取所述web站点的各个页面;获取所述各个页面的分块特征;将具有强分块特征的页面分为不同类型的页面;获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组;根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。
根据本发明实施例的站点资源管理方法,通过基于页面基础功能块和资源块特征信息、页面分簇信息等信息对页面类型进行识别,根据网页页面的结构,对网页的类型进行智能判断,利用了机器对于比较、匹配运算的高执行效率的特点,显著地提高了分类效率,节省了时间和人力成本。
在本发明的一个实施例中,所述强分块特征包括:导航块、索引块、图片块、文本块。
在本发明的一个实施例中,所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。
在本发明的一个实施例中,所述通配包括对所述各个页面的URL pattern在不同粒度上的通配。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。
在本发明的一个实施例中,在对所述各个页面进行Xpath分簇时,对所述各个页面的目标节点的Xpath进行签名。
在本发明的一个实施例中,所述目标节点包括div节点,ul节点、a节点,视频节点和图片节点。
本发明第二方面的实施例提出了一种站点资源管理装置,包括:挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;分块特征获取模块,用于获取所述各个页面的分块特征;分簇特征获取模块,用于获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组;页面分类模块,用于将具有强分块特征的页面分为不同类型的页面,以及根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。
根据本发明实施例的站点资源管理装置,通过基于页面基础功能块和资源块特征信息、页面分簇信息等信息对页面类型进行识别,根据网页页面的结构,对网页的类型进行智能判断,利用了机器对于比较、匹配运算的高执行效率的特点,显著地提高了分类效率,节省了时间和人力成本。
在本发明的一个实施例中,所述强分块特征包括:导航块、索引块、图片块、文本块。
在本发明的一个实施例中,所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。
在本发明的一个实施例中,所述分簇特征获取模块通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。
在本发明的一个实施例中,所述通配包括对所述各个页面的URL pattern在不同粒度上的通配。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。
在本发明的一个实施例中,在对所述各个页面进行Xpath分簇时,对所述各个页面的目标节点的Xpath进行签名。
在本发明的一个实施例中,所述目标节点包括div节点,ul节点、a节点,视频节点和图片节点。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210587855.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:塔式穿透逆流流化干燥机
- 下一篇:一种海岛数据管理方法和系统





