[发明专利]一种爬虫抓取的方法及其装置有效
| 申请号: | 200810226245.0 | 申请日: | 2008-11-10 |
| 公开(公告)号: | CN101739427A | 公开(公告)日: | 2010-06-16 |
| 发明(设计)人: | 孙宏伟;胡珉;罗治国 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 魏杉 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 爬虫 抓取 方法 及其 装置 | ||
1.一种爬虫抓取的方法,其特征在于,包括:
根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定 所述网页的当前权值;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;
当所述结果权值达到设定阈值时,重新抓取所述网页中的信息,并初始化 所述网页的历史权值;
当所述结果权值未达到设定阈值时,利用所述网页的结果权值更新所述网 页的历史权值。
2.如权利要求1所述的方法,其特征在于,
当所述网页的当前权值根据所述网页在当前搜索结果中的排序确定时,所 述网页的当前权值根据所述网页在当前搜索结果中的排序由前到后递减;或当 所述网页的当前权值根据所述网页被用户点击的顺序确定时,所述网页的当前 权值根据所述网页被用户点击的顺序由前到后递减;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值,包括:
将所述网页的历史权值加上当前权值,得到所述网页对应的结果权值;或 者,将所述网页的历史权值减去当前权值,得到所述网页对应的结果权值。
3.如权利要求1所述的方法,其特征在于,所述根据网页在当前搜索结 果中的排序和所述网页被用户点击的顺序,确定所述网页的当前权值包括:
根据所述网页在当前搜索结果中的排序,确定所述网页的第一权值;所述 第一权值根据所述网页在当前搜索结果中的排序由前到后递减;
以及,根据所述网页被用户点击的顺序,确定所述网页的第二权值;所述 第二权值根据所述网页被用户点击的顺序由前到后递减;
根据所述第一权值和所述第二权值,确定所述网页的当前权值。
4.如权利要求1所述的方法,其特征在于,更新所述网页的历史权值后, 并且当所述网页的当前权值根据所述网页在当前搜索结果中的排序确定时,所 述方法还包括:
根据所述网页被用户点击的顺序,确定所述网页的当前权值;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;
当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
5.如权利要求1所述的方法,其特征在于,更新所述网页的历史权值后, 并且当所述网页的当前权值根据所述网页被用户点击的顺序确定时,所述方法 还包括:
根据所述网页在搜索结果中的排序,确定所述网页的当前权值;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;
当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
6.一种爬虫抓取的装置,其特征在于,包括:
当前权值确定单元,用于根据网页在当前搜索结果中的排序或/和所述网页 被用户点击的顺序,确定所述网页的当前权值;
结果权值确定单元,用于根据所述当前权值确定单元确定的当前权值以及 所述网页的历史权值,确定所述网页的结果权值;
信息抓取单元,用于当所述结果权值确定单元确定的结果权值达到设定阈 值时,重新抓取所述网页中的信息;
历史权值初始化单元,用于当所述结果权值确定单元确定的结果权值达到 设定阈值时,初始化所述网页的历史权值;
历史权值更新单元,用于当所述结果权值确定单元确定的结果权值未达到 设定阈值时,利用所述网页的结果权值更新所述网页的历史权值。
7.如权利要求6所述的装置,其特征在于,当所述当前权值确定单元确 定出的当前权值是根据所述网页在当前搜索结果中的排序确定时,所述当前权 值根据所述网页在当前搜索结果中的排序由前到后递减;或当所述当前权值确 定单元确定出的当前权值是根据所述网页被用户点击的顺序确定时,所述当前 权值根据所述网页被用户点击的顺序由前到后递减;
所述结果权值确定单元,进一步用于:将所述网页的历史权值加上当前权 值,得到所述网页对应的结果权值;或者,将所述网页的历史权值减去当前权 值,得到所述网页对应的结果权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810226245.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子产品外壳背胶快速加工装置
- 下一篇:一种全自动压帽机装置





