[发明专利]一种爬虫抓取的方法及其装置有效
| 申请号: | 200810226245.0 | 申请日: | 2008-11-10 |
| 公开(公告)号: | CN101739427A | 公开(公告)日: | 2010-06-16 |
| 发明(设计)人: | 孙宏伟;胡珉;罗治国 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 魏杉 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 爬虫 抓取 方法 及其 装置 | ||
技术领域
本发明涉及互联网信息搜索领域,尤其涉及一种爬虫抓取的方法及其装 置。
背景技术
搜索引擎是现今互联网上广为应用的一项技术,人们只需要输入自己所需 要信息的部分关键字就可以通过搜索引擎找到大量与该关键字相关的信息,例 如百度、谷歌等搜索引擎。
搜索引擎的信息来源多种多样,有些是通过竞价广告的形式由发起这项广 告的广告商向搜索引擎运营商支付广告费,搜索引擎运营商在自己的搜索引擎 中刊登该广告的简要信息以及链接,而更多的非广告信息,例如新闻、学术信 息等是需要搜索引擎运营商自己去寻找并抓取加入搜索引擎的,面对互联网上 的海量信息,如何将大量搜索引擎运营商关心的信息从其它的无用信息中区分 出来,并分门别类地加入搜索引擎成为搜索引擎运营商亟需解决的问题。
爬虫抓取技术的出现解决了上述问题,该技术能够按照设定的条件将符合 该条件的信息从互联网的海量信息中抓取出来。将爬虫抓取技术应用于搜索引 擎可以有效地解决各种有效信息的抓取问题。爬虫抓取技术在抓取信息时需要 遍历网页,在面对互联网上的海量网页时,遍历所有网页几乎是很难办到的, 即使办到了,也需要耗费大量的时间和资源,使得爬虫抓取到的信息时效性很 差。针对此缺陷,目前普遍采用的解决方法是利用爬虫在一定数量、一定范围 的网页中抓取信息,这些网页一般是事先通过统计得出的含有有用信息的概率 和数量都比较高的网页。这样,可以将该一定数量、一定范围的网页形成一个 搜索列表并记录入爬虫的搜索范围,使爬虫每隔固定的时间在该搜索列表上检 索是否有新的信息页链接,如果有则根据链接下载该信息页,抽取该信息页中 有用的信息。
上述根据固定时间间隔爬虫抓取网页信息的方式,在一定程度上缩短了每 次爬虫抓取信息耗费的时间和资源,但在实际应用中,不同网页的用户关注度 不同,如果使用相同的频率抓取用户关注度高的网页信息和用户关注度低的网 页信息,显然对于用户关注度高的网页信息来说信息抓取频率相对较低,从而 不能对用户关注度高的网页中的信息及时地抓取和更新,使得这类网页中信息 的时效性差,即网页中会存在一定数量的过期信息或无效信息,进而影响用户 对搜索引擎的满意度。
发明内容
本发明提供一种优化爬虫抓取的方法及其装置,用以解决现有爬虫抓取技 术时效性差的问题。
本发明实施例通过如下技术方案实现:
本发明实施例提供了一种爬虫抓取的方法,包括:
根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定 所述网页的当前权值;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;
当所述结果权值达到设定阈值时,重新抓取所述网页中的信息,并初始化 所述网页的历史权值。
本发明实施例还提供了一种爬虫抓取的装置,包括:
当前权值确定单元,用于根据网页在当前搜索结果中的排序或/和所述网页 被用户点击的顺序,确定所述网页的当前权值;
结果权值确定单元,用于根据所述当前权值确定单元确定的当前权值以及 所述网页的历史权值,确定所述网页的结果权值;
信息抓取单元,用于当所述结果权值确定单元确定的结果权值达到设定阈 值时,重新抓取所述网页中的信息;
历史权值初始化单元,用于当所述结果权值确定单元确定的结果权值达到 设定阈值时,初始化所述网页的历史权值。
通过上述技术方案,本发明实施例能够根据网页在当前搜索结果中的排序 或/和该网页被用户点击的顺序,确定网页的当前权值,然后根据网页的当前权 值以及历史权值,确定该网页的结果权值,当结果权值达到设定阈值时,重新 抓取该网页中的信息。一般情况下,网页在当前搜索结果中的排序或/和网页被 用户点击的顺序能很好地体现该网页的用户关注度,基于此,本发明实施例利 用网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该 网页中信息的周期,根据该方案,对用户关注度高的网页可以缩短爬虫抓取网 页信息的周期,从而提高用户关注度高的网页中信息的抓取频率,保证这类网 页中的信息具有很好的时效性,提高用户的使用感受。
附图说明
图1为本发明实施例中爬虫抓取的第一流程图;
图2为本发明实施例中爬虫抓取的第二流程图;
图3为本发明实施例中爬虫抓取的第三流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810226245.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子产品外壳背胶快速加工装置
- 下一篇:一种全自动压帽机装置





