[发明专利]一种筛选网页上链接的方法和装置有效
申请号: | 200810071574.2 | 申请日: | 2008-08-12 |
公开(公告)号: | CN101650715A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | 陈奋;腾达;吴鸿伟 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361008福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 筛选 网页 链接 方法 装置 | ||
技术领域
本发明涉及通信领域,尤其涉及一种搜索过滤的方法和装置。
背景技术
随着信息网络的发展,大量的电子数据通过信息网络存储和发送,信息网络已成为信息获取的主要方式。搜索引擎是一种从海量的数据信息中寻找满足某种需要的信息的重要工具,在现代信息获取应用中,发挥着约来越重要的作用。网络爬虫是搜索引擎系统的一个重要组成部分,它起着分析网页、获取链接以及下载网页的作用。
网页链接中存在着很多对于某种搜索目无用的链接,如何过滤掉这些无用链接,是提高网络爬虫运行效率的关键技术,特别是在垂直搜索领域,这种技术尤其显得至关重要。
现有技术中,网络爬虫对搜索中无用链接的过滤的方式主要有两种:(1)采用人工设定过滤规则进行过滤的方式;(2)采用内容过滤方式。采用人工设定过滤规则进行过滤的方式在一定程度上能够达到过滤的效果,但这种方式工作量大、不灵活,如网站进行了改动,过滤规则设置也必须进行改动。采用内容过滤的方式必须将网页的内容下载分析,这一定程度上加重了网络爬虫的工作量以及后台分析的工作量,降低了搜索效率。
发明内容
本发明实施方式公开了一种筛选网页上链接的方法和一种筛选网页上链接的装置。
本发明实施方式公开的一种筛选网页上链接的方法,包括:
从搜索任务网站的首页及部分相关页面中提取链接;
拆分所述链接为域名部分和相对路径部分;
以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;
将所述链接矩阵转换为数值矩阵;
通过智能算法,将所述数值矩阵的行按不同类别分组;根据所述分组的行数目,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。
本发明实施方式公开的一种筛选网页上链接的的装置,包括:
链接提取模块,用于从搜索任务网站的首页及部分页面中提取链接;
链接拆分模块,用于拆分所述链接为域名部分和相对路径部分;
智能分析模块,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;
链接特征筛选模块,与所述智能分析模块相连,包括:
组合模块,用于以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;
转换模块,用于将所述链接矩阵转换为数值矩阵;
分组模块,用于通过智能算法,将所述数值矩阵的行按不同类别分组;
筛选子模块,根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。
本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。
附图说明
图1为本发明一个实施方式提供的一种筛选网页上链接的方法示意图;
图2为本发明另一实施方式提供的介绍网页特征的提取和与搜索任务无关链接的过滤方法的示意图;
图3为本发明再一个实施方式公开的一种筛选网页上链接的装置结构图;
图4为网站类别辨别决策树示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合实施方式对本发明做进一步地详细描述。本发明实施方式对网页链接进行特征提取,对网页上的链接进行筛选,提取有价值信息的链接,过滤无用的链接,从而达到过滤链接的目的从而提高网络爬虫的工作效率和搜索准确度。
本发明一个实施方式提供了一种筛选网页上链接的方法,如图1所示,包括步骤:
步骤101、从搜索任务网站的首页及部分相关页面中提取链接;
本步骤中,链接的提取可以通过链接提取算法实现。这里的部分相关页面指的是首页中包含的链接所对应的页面。还可以预先总结各种网站类型的规则,并下载所述搜索任务网站的首页及部分相关页面内容,根据首页和部分相关页面内容,以及各种网站类型的规则,判断所述搜索任务网站所属的网站类型。网站类型的规则,反映了网页中链接的布局、有价值信息链接的特征数据和特征的表达形式。然后根据搜索任务网站的网站类型提取链接,这样提高了提取链接的效率。
步骤102、拆分所述链接为域名部分和相对路径部分;
本步骤中,还可以首先过滤掉域名和所述搜索任务网站的域名不同的链接,这些链接,可视为和搜索任务网站直接不相关的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810071574.2/2.html,转载请声明来源钻瓜专利网。