“中爬取”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果11150675个，建议您升级VIP下载更多相关专利

[发明专利]网页数据爬取方法、装置、用户终端及可读存储介质-CN201710619263.4在审
发明人：周晶 -专利权人：上海壹账通金融科技有限公司
申请日： 2017-07-26 - 公布日： 2018-02-13 - 主分类号： H04L29/06 文献下载
摘要：本发明涉及一种网页数据爬取方法、装置、用户终端及可读存储介质，该方法包括通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站；检测是否成功登录待爬取网站；当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配；当匹配时，则爬取待爬取网站中的待爬取数据；将所爬取的待爬取数据发送至服务器。上述网页数据爬取方法、装置、用户终端及可读存储介质，通过客户端来爬取待爬取网站中的待爬取数据，可以避免在服务器端爬取待爬取网站中的待爬取数据触发风控机制，导致用户账户被锁等情况的发生。
网页数据方法装置用户终端可读存储介质

[发明专利]一种跟踪爬取过程的方法及装置-CN201710719691.4有效
发明人：邢琰 -专利权人：北京国双科技有限公司
申请日： 2017-08-21 - 公布日： 2021-10-08 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种跟踪爬取过程的方法，包括：将发送给爬虫模块的，需要爬取的网站的网站地址，存储到爬取网站列表中；轮询所述爬取网站列表中的网站地址，每轮询到一个网站地址时，分别执行以下操作：根据轮询到的网站地址，从所述爬取网站列表中，查询得到爬取所述轮询到的网站地址的爬取任务ID；根据所述爬取任务ID，从数据库中查询得到对应所述爬取任务ID的错误信息；其中，所述数据库为存储所述爬虫模块的爬取结果以及爬取过程中的错误信息的数据库采用该方法能够实现自动化的跟踪爬取过程，查询爬取过程中的错误信息。
一种跟踪过程方法装置

[发明专利]断点恢复方法及装置-CN201910932764.7在审
发明人：满悦 -专利权人：北京国双科技有限公司
申请日： 2019-09-29 - 公布日： 2021-03-30 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种断点恢复方法及装置，在爬虫爬取页面出错后，会获取爬虫爬取过程中的爬虫爬取记录，然后从所述爬虫爬取记录中，筛选出末次爬取记录，末次爬取记录包括爬虫爬取出错时的爬虫爬取操作，然后基于所述末次爬取记录，进行断点恢复操作，就可以恢复了爬虫在爬取出错时的爬取操作，此后可以继续执行后续的爬取操作，本发明直接断点恢复到爬取出错时的爬取操作，实现了高效断点恢复。
断点恢复方法装置

[发明专利]论坛目录页内容爬取方法和装置-CN201511019097.1在审
发明人：兰光明 -专利权人：北京国双科技有限公司
申请日： 2015-12-29 - 公布日： 2017-07-07 - 主分类号： G06F17/30 文献下载
摘要：本申请公开了一种论坛目录页内容爬取方法和装置。其中，该方法包括爬取论坛目录页的第一爬取页面中的文章，得到爬取结果，其中，论坛目录页中的文章按照发表时间排序；从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间；判断发表时间是否晚于预设时间；在判断出发表时间晚于预设时间时，跳转至论坛目录页的第二爬取页面，并爬取第二爬取页面中的文章，其中，第二爬取页面位于第一爬取页面之后；以及在判断出发表时间不晚于预设时间时，停止爬取论坛目录页中的文章。本申请解决了相关技术中通过翻页爬取论坛目录页面内容时，在发帖量较大时最大翻页数不够造成数据丢失，在发帖量较少时爬取最大翻页数的页面浪费网络资源的技术问题。
论坛目录内容方法装置

[发明专利]一种网站数据的爬取方法、装置、电子设备及存储介质-CN201911000083.3在审
发明人：何海生;张龙 -专利权人：软通动力信息技术有限公司
申请日： 2019-10-21 - 公布日： 2020-01-31 - 主分类号： G06F16/951 文献下载
摘要：本发明实施例公开了一种网站数据的爬取方法、装置、电子设备及存储介质。其中，该方法应用于终端集群中任一节点终端，包括：接收终端集群中主控终端发送的数据爬取指令，根据数据爬取指令启动数据爬取程序；通过数据爬取程序，循环从任务队列中读取处于未处理状态的爬取任务，根据当前读取的爬取任务爬取相应网站的页面数据，直至任务队列中处于未处理状态的爬取任务为空。通过构建包括终端集群和任务队列的爬取架构，实现了终端集群中被主控终端选中的至少一个节点终端，可循环从任务队列中读取处于未处理状态的爬取任务，从而实现了高效便捷的网站数据爬取。
任务队列读取终端集群未处理节点终端网站数据主控终端取指令存储介质电子设备接收终端启动数据页面数据可循环构建集群网站架构发送

[发明专利]一种网页爬虫方法、装置以及电子设备-CN201810082418.X在审
发明人：张星 -专利权人：湖北省楚天云有限公司
申请日： 2018-01-29 - 公布日： 2018-08-17 - 主分类号： G06F17/30 文献下载
摘要：本说明书实施例公开了一种网页爬虫方法、装置以及电子设备，所述方法包括：确定待爬取主题，获得对应的主题向量表示；基于从未爬取列表中确定的未爬取URL，获取对应页面的内容向量表示；根据所述内容向量表示与所述主题向量表示的相关度同时设置未爬取URL列表和已爬取URL列表，并将完成爬取的URL存储到已爬取URL列表中，放置对URL的重复爬取，可以有效提高爬取的效率；进一步地，为了提高爬取的准确率，对待爬取URL对应的网页内容与待爬取主题的相关度进行计算，对相关度比较高的URL进行爬取，并将爬取过的URL存储到已爬取URL列表中；基于上述方案，能够实现准确、高效的网页爬虫。
网页爬虫相关度电子设备内容向量主题向量网页内容准确率重复

[发明专利]网页爬取方法和装置-CN201710117896.5在审
发明人：单长美;李玲 -专利权人：中兴通讯股份有限公司
申请日： 2017-03-01 - 公布日： 2018-09-14 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种网页爬取方法和装置，所述方法包括以下步骤：配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；根据所述目标网站生成爬取列表；依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。从而，通过对爬取到的外链进行控制，有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。
目标网站网站链接网页方法和装置链接网站过滤策略过滤存储空间杂质数据滤除外链带宽占用配置

[发明专利]数据爬取应用的创建方法、装置、存储介质及设备-CN201911168511.3在审
发明人：何熠皓 -专利权人：北京国双科技有限公司
申请日： 2019-11-25 - 公布日： 2021-05-25 - 主分类号： G06F16/951 文献下载
摘要：本公开涉及一种数据爬取应用的创建方法、装置、存储介质及设备。所述方法包括：定义用于输入所述数据爬取单元的请求参数，所述请求参数中至少包括：待爬取网址；基于所述请求参数中的待爬取网址，执行模拟数据爬取，获得响应数据；根据所述响应数据，确定输出数据；将所述数据爬取单元进行封装，得到所述数据爬取应用，其中，所述数据爬取应用的输入接口根据所述请求参数定义，所述数据爬取应用的输出接口根据所述输出数据定义。由此，通过抽象封装方法生成能够进行数据爬取的数据爬取单元，并基于数据爬取单元生成数据爬取应用，供用户直接使用以实现数据爬取功能，无需重复编写代码，提升数据爬取的效率，可用性强。
数据应用创建方法装置存储介质设备

[发明专利]数据的爬取方法及装置-CN201811277896.2有效
发明人：陆生辉 -专利权人：北京国双科技有限公司
申请日： 2018-10-30 - 公布日： 2023-05-12 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种数据的爬取方法及装置，涉及爬虫技术领域，提高了数据爬取客户端爬取WebView界面中的数据内容的成功率。本发明的方法包括：当数据爬取模块获取到目标WebView对象时，创建目标WebView对象对应的动态代理，其中，数据爬取模块为在Xposed框架下创建的Xposed模块；将动态代理作为参数添加至预设脚本函数中，其中，预设脚本函数为数据爬取模块对应的执行脚本中的函数，执行脚本用于爬取目标WebView对象对应的数据内容；数据爬取模块通过调用预设脚本函数，指示执行脚本爬取目标WebView对象对应的数据内容；通过动态代理获取执行脚本爬取的数据内容本发明适用于数据爬取客户端爬取WebView界面中的数据内容的过程中。
数据方法装置

[发明专利]一种应用爬取方法及系统-CN201710120705.0在审
发明人：雷建朝 -专利权人：上海斐讯数据通信技术有限公司
申请日： 2017-03-02 - 公布日： 2017-06-23 - 主分类号： G06F17/30 文献下载
摘要：本发明涉及数据信息检索技术领域，具体为一种应用爬取方法及系统。一种应用爬取方法，包括以下步骤，1)获取应用的包名；2)将所述应用的包名通过布隆过滤器处理生成一爬取数组；3)对所述应用进行爬取并保存所述爬取数组。在对所述应用进行爬取之前，还包括利用所述爬取数组与已存储在应用爬取系统中的爬取数组做比较，判断所述应用是否已爬取；若所述应用未爬取，对所述应用进行爬取，并将所述爬取数组存储在所述应用爬取系统中。本发明通过布隆过滤器对应用进行过滤以保证在重复量不高的情况下爬取一个全量的应用，并通过白名单相似度进行对比，降低了应用爬取的错误率。
一种应用方法系统

[发明专利]一种页面爬取规则的配置方法及装置-CN201710884074.X有效
发明人：满悦 -专利权人：北京国双科技有限公司
申请日： 2017-09-26 - 公布日： 2021-10-15 - 主分类号： G06F16/953 文献下载
摘要：本发明公开了一种页面爬取规则的配置方法及装置，涉及计算机技术领域，主要目的在于能够自动生成页面爬取规则，并提高爬取规则的生成速度，本发明的主要技术方案为：从需要配置爬取规则的页面中选取待爬取页面元素；根据所述待爬取页面元素对应的属性信息，生成页面元素的路径信息；通过设置与所述待爬取页面元素相匹配的正则表达式模板，生成与所述待爬取页面元素的内容相匹配的正则表达式；根据所述待爬取页面元素在待爬取页面中的显示规则以及所述待爬取页面元素在待爬取页面中的位置信息配置所述待爬取页面的页面爬取规则本发明主要用于页面爬取规则的配置。
一种页面规则配置方法装置

[发明专利]网页爬取方法及装置-CN201811145540.3有效
发明人：何熠皓 -专利权人：北京国双科技有限公司
申请日： 2018-09-29 - 公布日： 2023-05-12 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种网页爬取方法及装置，涉及爬取技术领域。本发明主要解决了现有技术中无法基于预先创建的爬取架构形成一个新的爬取架构对网页进行爬取的问题。本发明的方法包括：获取目标网页的域名，并确定与所述域名相匹配的规则；判断预先创建的第一爬取构架中是否包含与所述域名相匹配的至少部分规则；若所述第一爬取构架中包含与所述域名相匹配的至少部分规则，则从所述第一爬取构架中继承所述至少部分规则；根据所述至少部分规则，创建第二爬取架构，通过所述第二爬取构架对所述目标网页进行爬取。本发明可广泛应用于爬取网页的场景中。
网页方法装置

[发明专利]网页数据的爬取方法及装置-CN201811161352.X有效
发明人：满悦 -专利权人：北京国双科技有限公司
申请日： 2018-09-30 - 公布日： 2023-05-12 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种网页数据的爬取方法及装置，涉及爬虫技术领域，主要目的在于解决现有的爬取的网页数据中存在大量冗余，影响爬取数据的准确性的问题。本发明的方法包括：接收到爬取指令时，确定待爬取网页元素及所述待爬取网页元素对应的元素标签；根据所述元素标签从已爬取的网页内容数据中获取第一内容数据，所述元素标签中存储有已爬取网页元素与已爬取网页内容数据的对应关系；判断所述第一内容数据与第二内容数据是否一致，所述第二内容数据为待爬取网页元素对应的网页数据；若不一致，则爬取所述第二内容数据。本发明适用于爬取网页中的数据。
网页数据方法装置

[发明专利]网页爬取方法和装置-CN201611042702.1在审
发明人：李可欣 -专利权人：北京国双科技有限公司
申请日： 2016-11-23 - 公布日： 2018-05-29 - 主分类号： G06F17/30 文献下载
摘要：本申请公开了一种网页爬取方法和装置。其中，该方法包括：从爬取任务中查找目标登录验证信息，其中，爬取任务为网络爬虫爬取目标网页的页面内容的任务，目标登录验证信息用于表示爬虫具有爬取页面内容的权限；判断是否从爬取任务中查找到了目标登录验证信息；如果判断出没有从爬取任务中查找到目标登录验证信息，则根据预配置文件查找目标登录验证信息，其中，预配置文件中包含多个网页的登录验证信息；根据查找到的目标登录验证信息爬取目标网页中的页面内容。本申请解决了现有技术中爬虫在执行爬取任务时由于目标登录验证信息失效导致爬取任务失败的技术问题。
目标登录验证信息页面内容方法和装置爬虫登录验证目标网页网页配置文件查找查找目标配置文件网络爬虫申请查找权限失败

[发明专利]网页爬取的方法和装置-CN201611089766.7有效
发明人：崔志伸 -专利权人：北京国双科技有限公司
申请日： 2016-11-30 - 公布日： 2021-01-22 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种网页爬取的方法和装置。其中，该方法包括：在翻页爬取任务中针对每页的爬取结果进行存储，并依据每页对应的爬取结果生成对应的存储标识；在翻页爬取任务爬取页面失败时，依据存储标识对应的爬取进程执行爬取操作；在翻页爬取任务结束时，依据每页对应的存储标识提取对应的爬取结果；存储翻页爬取任务的爬取结果。本发明解决了由于翻页过程中出现不可控错误时，之前爬取成功的页面将全部丢失，从而导致降低了爬取效率的技术问题。
网页方法装置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 100000 条