[发明专利]基于社会标注的主题爬虫系统无效
申请号: | 200910062020.0 | 申请日: | 2009-05-08 |
公开(公告)号: | CN101561814A | 公开(公告)日: | 2009-10-21 |
发明(设计)人: | 李瑞轩;文坤梅;赵勇;辜希武;卢正鼎;靳延安;丁益斌 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社会 标注 主题 爬虫 系统 | ||
技术领域
本发明属于计算机数据挖掘技术,具体涉及一种基于社会标注的主题 爬虫系统,该系统提出了一种新的爬行策略,根据网页的社会标注与预定 主题之间的相关度来指导爬虫的爬行,能够使主题爬虫准确、有效地爬取 相关页面,并根据爬取页面的相关度动态调整待爬行网页的优先级。
背景技术
随着因特网的飞速发展,人们越来越依赖计算机网络来查找需要的信 息,网络已经成为人们生活中获取信息的一个重要来源。搜索引擎的出现 使人们可以利用关键词快速地查询相关的网页信息,避免漫无目的地查找, 节省获取信息的时间,从而大大提高了工作效率,如常用的Yahoo !,Google, 百度。网络爬虫遵循一定策略在互联网上进行网页爬取,为搜索引擎的后 续处理提供数据,在搜索引擎中占重要的地位。随着网络上多元化信息的 增多,传统的搜索引擎已经不能满足人们对个性化信息搜索的需求,面向 主题的搜索引擎应运而生,从而提供更精确的数据以及更及时地更新。主 题搜索引擎是以构筑某一专题领域或学科领域的英特网信息资源库为目 标,智能地在互联网上搜集符合设定主题或满足学科需要的信息资源。相 应的主题搜索引擎对爬虫提出了更高的要求,通用爬虫要求尽可能多地爬 取页面,做到面面俱到,从而可以满足各领域用户的搜索请求,而主题爬 虫是为主题搜索引擎服务的,面向的是特定领域的用户,因此要求尽可能 多地爬取与主题相关的页面,从而为后续地搜索提供更准确的结果和更友 好的用户体验。
在一个爬虫系统中,爬虫的搜索策略决定着爬虫爬行的方向,从而也 就决定着爬行所能获取的页面。为使得爬虫能够获取与主题相关度最高的 网页集,就必须针对性地制定相应的搜索策略。现有的搜索策略分成两类, 一类是基于内容评价的搜索策略,一类是基于网络链接结构评价的搜索策 略。
基于内容评价的搜索策略是利用页面中的文本信息作为主题知识指导 搜索,并根据页面或链接文本与主题(如关键词,主题相关文档等)之间 的相似度来评价链接价值的高低。主要有Fish Search搜索策略和Shark Search搜索策略。Fish Search是在1993年由荷兰TUE大学Debra教授提出 的。Fish Search将用户输入的查询关键字或者短语作为主题,将包含查询 串的页面当作是主题相关的,并且只搜索主题相关的页面。算法中动态维 护一个URL优先队列,根据Potential_score(网页的相关度)从高到低进 行搜索,Potential_score只有1,0.5,0三种值。Shark Search在Fish Search 的基础上做了改进,充分利用锚文本以及链接的上下文,采用空间向量模 型来改善相似度计算时简单的两值判断所带来的问题,将对象相关值进行 了细化。上面所讨论的两种算法都是基于内容评价的搜索算法,根据语义 相似度的高低决定链接的访问顺序。这类方法起源于文本检索中对文本相 似度的评价,它的显著优点是计算量比较小。但是,因为Web页面不同于 传统的文本,它是一种半结构化的文档,其中包含了许多结构信息,Web 页面不是单独存在的,页面中的超链接在一定程度上表示了页面之间存在 着某些关系。由于基于内容评价的网络爬虫忽略了这些信息,因而在预测 超链接的价值方面存在一些缺陷,容易造成网页的误选。此外,评价的准 确性也依赖于对主题关键词集合的选择和构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910062020.0/2.html,转载请声明来源钻瓜专利网。