|
钻瓜专利网为您找到相关结果 11150675个,建议您 升级VIP下载更多相关专利
- [发明专利]一种跟踪爬取过程的方法及装置-CN201710719691.4有效
-
邢琰
-
北京国双科技有限公司
-
2017-08-21
-
2021-10-08
-
G06F16/951
- 本发明公开了一种跟踪爬取过程的方法,包括:将发送给爬虫模块的,需要爬取的网站的网站地址,存储到爬取网站列表中;轮询所述爬取网站列表中的网站地址,每轮询到一个网站地址时,分别执行以下操作:根据轮询到的网站地址,从所述爬取网站列表中,查询得到爬取所述轮询到的网站地址的爬取任务ID;根据所述爬取任务ID,从数据库中查询得到对应所述爬取任务ID的错误信息;其中,所述数据库为存储所述爬虫模块的爬取结果以及爬取过程中的错误信息的数据库采用该方法能够实现自动化的跟踪爬取过程,查询爬取过程中的错误信息。
- 一种跟踪过程方法装置
- [发明专利]论坛目录页内容爬取方法和装置-CN201511019097.1在审
-
兰光明
-
北京国双科技有限公司
-
2015-12-29
-
2017-07-07
-
G06F17/30
- 本申请公开了一种论坛目录页内容爬取方法和装置。其中,该方法包括爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,论坛目录页中的文章按照发表时间排序;从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间;判断发表时间是否晚于预设时间;在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章,其中,第二爬取页面位于第一爬取页面之后;以及在判断出发表时间不晚于预设时间时,停止爬取论坛目录页中的文章。本申请解决了相关技术中通过翻页爬取论坛目录页面内容时,在发帖量较大时最大翻页数不够造成数据丢失,在发帖量较少时爬取最大翻页数的页面浪费网络资源的技术问题。
- 论坛目录内容方法装置
- [发明专利]数据的爬取方法及装置-CN201811277896.2有效
-
陆生辉
-
北京国双科技有限公司
-
2018-10-30
-
2023-05-12
-
G06F16/951
- 本发明公开了一种数据的爬取方法及装置,涉及爬虫技术领域,提高了数据爬取客户端爬取WebView界面中的数据内容的成功率。本发明的方法包括:当数据爬取模块获取到目标WebView对象时,创建目标WebView对象对应的动态代理,其中,数据爬取模块为在Xposed框架下创建的Xposed模块;将动态代理作为参数添加至预设脚本函数中,其中,预设脚本函数为数据爬取模块对应的执行脚本中的函数,执行脚本用于爬取目标WebView对象对应的数据内容;数据爬取模块通过调用预设脚本函数,指示执行脚本爬取目标WebView对象对应的数据内容;通过动态代理获取执行脚本爬取的数据内容本发明适用于数据爬取客户端爬取WebView界面中的数据内容的过程中。
- 数据方法装置
- [发明专利]一种应用爬取方法及系统-CN201710120705.0在审
-
雷建朝
-
上海斐讯数据通信技术有限公司
-
2017-03-02
-
2017-06-23
-
G06F17/30
- 本发明涉及数据信息检索技术领域,具体为一种应用爬取方法及系统。一种应用爬取方法,包括以下步骤,1)获取应用的包名;2)将所述应用的包名通过布隆过滤器处理生成一爬取数组;3)对所述应用进行爬取并保存所述爬取数组。在对所述应用进行爬取之前,还包括利用所述爬取数组与已存储在应用爬取系统中的爬取数组做比较,判断所述应用是否已爬取;若所述应用未爬取,对所述应用进行爬取,并将所述爬取数组存储在所述应用爬取系统中。本发明通过布隆过滤器对应用进行过滤以保证在重复量不高的情况下爬取一个全量的应用,并通过白名单相似度进行对比,降低了应用爬取的错误率。
- 一种应用方法系统
- [发明专利]一种页面爬取规则的配置方法及装置-CN201710884074.X有效
-
满悦
-
北京国双科技有限公司
-
2017-09-26
-
2021-10-15
-
G06F16/953
- 本发明公开了一种页面爬取规则的配置方法及装置,涉及计算机技术领域,主要目的在于能够自动生成页面爬取规则,并提高爬取规则的生成速度,本发明的主要技术方案为:从需要配置爬取规则的页面中选取待爬取页面元素;根据所述待爬取页面元素对应的属性信息,生成页面元素的路径信息;通过设置与所述待爬取页面元素相匹配的正则表达式模板,生成与所述待爬取页面元素的内容相匹配的正则表达式;根据所述待爬取页面元素在待爬取页面中的显示规则以及所述待爬取页面元素在待爬取页面中的位置信息配置所述待爬取页面的页面爬取规则本发明主要用于页面爬取规则的配置。
- 一种页面规则配置方法装置
- [发明专利]网页爬取方法及装置-CN201811145540.3有效
-
何熠皓
-
北京国双科技有限公司
-
2018-09-29
-
2023-05-12
-
G06F16/951
- 本发明公开了一种网页爬取方法及装置,涉及爬取技术领域。本发明主要解决了现有技术中无法基于预先创建的爬取架构形成一个新的爬取架构对网页进行爬取的问题。本发明的方法包括:获取目标网页的域名,并确定与所述域名相匹配的规则;判断预先创建的第一爬取构架中是否包含与所述域名相匹配的至少部分规则;若所述第一爬取构架中包含与所述域名相匹配的至少部分规则,则从所述第一爬取构架中继承所述至少部分规则;根据所述至少部分规则,创建第二爬取架构,通过所述第二爬取构架对所述目标网页进行爬取。本发明可广泛应用于爬取网页的场景中。
- 网页方法装置
- [发明专利]网页数据的爬取方法及装置-CN201811161352.X有效
-
满悦
-
北京国双科技有限公司
-
2018-09-30
-
2023-05-12
-
G06F16/951
- 本发明公开了一种网页数据的爬取方法及装置,涉及爬虫技术领域,主要目的在于解决现有的爬取的网页数据中存在大量冗余,影响爬取数据的准确性的问题。本发明的方法包括:接收到爬取指令时,确定待爬取网页元素及所述待爬取网页元素对应的元素标签;根据所述元素标签从已爬取的网页内容数据中获取第一内容数据,所述元素标签中存储有已爬取网页元素与已爬取网页内容数据的对应关系;判断所述第一内容数据与第二内容数据是否一致,所述第二内容数据为待爬取网页元素对应的网页数据;若不一致,则爬取所述第二内容数据。本发明适用于爬取网页中的数据。
- 网页数据方法装置
|