[发明专利]一种及时高效的互联网信息爬取方法有效
申请号: | 201110430997.0 | 申请日: | 2011-12-20 |
公开(公告)号: | CN103176985A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 杨风雷;黎建辉;杨俊峰;虞路清;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 及时 高效 互联网 信息 方法 | ||
技术领域
本发明属于信息技术领域,尤其涉及一种及时高效的互联网信息爬取方法。
背景技术
随着互联网的快速发展,它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。从其中包含的内容看,互联网上存在众多的通过超链接方式链接在一起的网页信息,并且其中相当大的一部分具有动态变化的特点;以此为基础,互联网上可以提供众多的服务,而且通过人、组织等之间的交流形成了一个和真实社会有一定对应、关联关系的虚拟社会。为此,以从互联网的结构、内容、日志等之中探寻有用知识为目标的Web数据挖掘得到了很大的关注和发展,以互联网上的内容作为挖掘对象的内容挖掘尤其如此。以这些挖掘工作为基础的应用也得到了广泛的关注,服务于多种目的的互联网信息监控、信息预警等即是这样的应用。
为进行互联网上的内容挖掘和执行特定的信息监控、预警等应用,首先需要采用一定的技术采集符合要求的互联网内容,这一般需要通过基于有限范围爬取、垂直爬取或主题爬取等技术的互联网信息爬虫(Crawler)系统完成。很明显,信息监控、预警等应用对采集的信息有着特定的不同于一般搜索引擎的需求,其中两个最重要需求是:(1)信息的主题相关性,即所采集的信息应符合预期的主题需要,或者说采集的信息在内容上和预定话题或者主题应该是相关的;(2)信息的新颖性,即要保证目标网站所出现的新信息能在第一时间得到。
关于信息的主题性问题,考虑到互联网上的信息超大规模,为支持特定的信息监控等应用,对互联网上的所有信息进行完全采集是不现实的,也是无意义的。对此,可以采用主题聚焦技术对互联网上的信息进行分类,对相关内容进行快速采集,而对不相关内容则采取抛弃措施。为了判断页面是否相关,锚文本、链接结构等是可以利用的条件。在对一个网页进行是否相关分类的基础上,可以采取对其(假定相关)内部的子链接全部访问、据特征赋以不同的分值后排序并按照次序进行访问的方法等。从实践的效果看,采取这些主题爬取技术做法得到的效果尚有进一步提高的必要。
关于网页信息的新颖性问题-即目标网站中出现的网页信息在一定时间范围内(比如10分钟)是否在本地数据库中出现的问题。与此相关联的是通用搜索引擎中的时新性问题。关于信息的时新性问题,从一般搜索引擎的角度看,主要考虑到互联网上的网页信息在不停的增加、删除和修改。为了准确的查看网页中的内容,需要搜索引擎的爬虫对已经爬取过的页面进行访问看它们是否发生了变化,以保持网页集合的时新性-指所抓取的网页中当前为新网页的比例。简单的考虑,为保证所采集的页面都是最新的,可以不停的去访问页面,但这会给信息提供者、信息采集者带来极大的采集负载(包括可能影响网站的正常运行、增加了极大的网络流量等等)。为此,有研究工作对网页的变化情况进行总体研究,并在此基础上对网页的重新访问进行规划。但注意到一般搜索引擎所关注的信息时新性问题不同于前述的页面新颖性问题。信息监控、预警应用中主要关注的问题是目标网站出现的新信息是否在有限的时间范围内被抓取回来了,相对而言,对时间非常敏感,其关注每一个网页对象,同时其对信息的主题范围比较关注。而一般搜索引擎主要关注的问题是抓取回来的网页信息是否发生了变化,如果发生变化,则要更新,相对而言对时间不太敏感,其关注本地资源库的总体指标,同时其不关注信息的主题范围;另外,相关研究中对网页的重新访问规划往往基于事先设定的条件(比如网页的变化规律),但这些条件在现实情况下往往不能满足,因此网页重新访问规划的效果往往比较差。因此这些技术不能直接应用到信息监控、预警应用中。
为满足互联网信息监控、信息预警等应用的信息需求,另外一个需要考虑的问题是:如何将互联网信息的主题爬取(关注页面的话题相关性)和及时爬取(关注页面的新颖性问题)等技术思路结合在一起,优化、整合相关技术以形成一个及时、高效的互联网信息爬虫系统。经过查阅文献发现,目前尚未有研究工作涉及于此。
因此,为满足互联网信息监控、信息预警等应用的信息需求,迫切需要解决以下问题:优化、开发互联网信息主题爬取、及时爬取相关技术,并整合形成一个及时、高效的互联网信息爬虫系统,以在较低信息爬取负载(比如对信息提供网站有较小的影响、产生较少的无效网络流量等)条件下保证所获取网页信息的新颖性、主题性特征。
发明内容
为解决上述的问题,本发明的目的在于提供一种在较低采集负载(比如对提供信息的网站有较低的影响、减少无效的网络流量等)的条件下保证所爬取页面新颖性、主题性的互联网信息爬取方法。
借鉴智能系统思路,方法中形成的步骤如下所述。
一、信息收集和整理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430997.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置