[发明专利]基于垂直搜索和聚焦爬虫的网页分类技术无效
申请号: | 200910025724.0 | 申请日: | 2009-03-06 |
公开(公告)号: | CN101520798A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 王攀;张顺颐;宫婷 | 申请(专利权)人: | 苏州锐创通信有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210003江苏省南京市鼓*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 垂直 搜索 聚焦 爬虫 网页 分类 技术 | ||
技术领域
本发明是针对固定导航类网站列表垂直搜索引擎中的网页分类识别方法的研究,主要研究如何基于垂直搜索和聚焦爬虫技术来有效获得网页的分类信息,并设计了网页分类的识别模型和算法,涉及垂直搜索、聚焦爬虫、网页数据抽取、机器学习、数据挖掘和自然语言等多领域。
背景技术
随着信息的不断膨胀,人们越来越离不开搜索引擎。百度、谷歌等通用搜索引擎虽然给人们提供了很多便利,但是随着人们需求的多样化和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索就应运而生,它是服务于局部专业领域的精确搜索技术,更加专业,返回的结果更具有针对性,通过特定行业主题的领域知识,可以提供根据语义信息的查询,从而能满足用户的特殊搜索需求。
随着垂直搜索引擎的日益流行,作为垂直搜索引擎的关键技术—聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。
针对垂直搜索和聚焦爬虫技术的网页分类识别具备一定的难度,有如下原因:
第一、聚焦爬虫很难判断如何从待爬行URL队列中挑出最可能包含主题相关信息的网页进行爬行。
第二、现在许多开源爬虫系统不具备从抓取的网页中定向提取网页结构化信息的功能。
第三、同一网页的内容和结构常有变化,聚焦爬虫的重访策略很难适应这一变化。
由上可见,采用传统开源的聚焦爬虫技术很难准确的识别不同类别的网页。因此,必须另辟蹊径。
通过对垂直搜索和聚焦爬虫技术的研究,我们能够解决以下问题:
(1)利用垂直搜索和聚焦爬虫从导航网站上获取不同分类对应的网址。
(2)能够根据用户对特定行业主题的特殊搜索返回有针对性的精确搜索结果。
(3)通过垂直搜索和聚焦爬虫获得分类网站上一个未知URL所属的网页分类。
发明内容
技术问题:本发明的目的是针对导航类网站建立一种基于垂直搜索和聚焦爬虫技术的网页分类识别方法,并设计其识别模型和算法,通过对导航类网站的识别,获取导航类网站中不同分类的URL,便于用户对网站的精确搜索,同时能给出未知URL所属的网页分类。
技术方案:本发明提出了一种有效识别导航类网站中各分类URL的技术框架,并且详细设计了识别算法。系统分为三个层面,从下往上依次是:数据采集层、内容解析层和应用表示层。
本文的关键方法是基于垂直搜索和聚焦爬虫技术的网页分类识别方法,该方法包括两个部分:网页源码获取和网页内容解析法。其中网页内容解析法是核心,它包括两个主要的部分:抽取网页的结构化信息和聚焦爬虫的爬行策略。通过对导航网站网页源码的研究我们发现,导航类网站基本上有两种页面组成—主目录页面和各个分类的子目录页面,主目录页面包含大量的指向各个分类子页面的链接,而各个分类的子目录页面则包含属于该分类的网站的链接。同一个导航网站上各个分类的子目录页面也有着很强的相似性,也就是说这些页面中都有相似的结构,可以通过模式学习用一个(或若干个)正则表达式来概括页面的结构化信息,所以只要找到代表这些页面结构化信息的正则表达式就可以很好的指导聚焦爬虫尽量抓取与分类相关的网页。以www.hao123.com为例,我们想要查找“休闲娱乐”类别的所有URL,可以编写正则表达式href//s*=//s*(?:/"(?<1>[^/"]*)/"|(?<1>//S+)),用来匹配字符串中的形如href="..."的链接,就可以得到“休闲娱乐”类别的所有URL。为了适应导航网站不定期的更新,更好的抽取目录页面的网页结构化信息,我们增加了URL正则表达式的定时学习器,可以适应导航站点的不断变化。同时本发明参考了对URL的三种搜索策略,提出了基于网页内容特征的定向广度优先搜索策略。该搜索策略的基本思想是:在网页抓取的过程中,先根据网页的内容特征定向抽取网页的结构化信息,然后用广度优先策略从结构化信息中抓取网页。这种方法可以有效地减少采集页面的数量,同时也节约了网络带宽,提高信息搜索的效率。
以下详细介绍该设计的各个层面及其基于垂直搜索和聚焦爬虫的网页分类识别方法和网页内容解析法。
1.数据采集层
功能:该层面的主要作用是通过各种Web协议来完成对网页数据的采集,然后将采集到的页面交给上一层面做进一步处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州锐创通信有限责任公司,未经苏州锐创通信有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910025724.0/2.html,转载请声明来源钻瓜专利网。