|
钻瓜专利网为您找到相关结果 9056705个,建议您 升级VIP下载更多相关专利
- [发明专利]一种增量更新与爬取技术-CN201310040088.5在审
-
尹科
-
北京英富森信息技术有限公司
-
2013-02-01
-
2014-08-06
-
G06F17/30
- 本发明涉及一种增量更新与爬取技术,包括:判断待爬取网页内容的UR是否为静态页面的链接地址;当待爬取网页内容的URL为静态页面的链接地址时,判断所述URL是否爬取过,是则用所述URL替换已存储的URL;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将待爬取网页的内容存储到所述文件夹中。本发明通过每次获取待爬取网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经爬取过,如已经爬取过则不进行爬取,直接将已经爬取过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度
- 一种增量更新技术
- [发明专利]数据爬取方法及装置-CN201610096587.X在审
-
李可欣
-
北京国双科技有限公司
-
2016-02-22
-
2017-08-29
-
G06F17/30
- 本发明公开了一种数据爬取方法及装置,涉及数据处理技术领域,解决了现有的数据爬取方法爬取数据重复率较高的问题。本发明的主要技术方案为接收爬虫程序发送的页面爬取请求信息,所述页面爬取请求信息中包括列表页链接;判断缓存队列中是否存在所述列表页链接,所述缓存队列中存储有爬虫程序已经爬取过的列表页链接;若所述缓存队列中不存在所述列表页链接,则向所述爬虫程序发送所述页面爬取请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行爬取。本发明主要用于爬取网页数据。
- 数据方法装置
|