“何熠皓”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果13个，建议您升级VIP下载更多相关专利

[发明专利]数据处理的方法及装置-CN201811141057.8有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2018-09-28 - 公布日： 2023-10-27 - 主分类号： G06F16/9535 文献下载
摘要：本发明公开了一种数据处理的方法及装置，涉及数据处理技术领域，主要目的在于解决现有的爬取到的数据存在可读性较差的问题。本发明的方法包括：确定待处理数据中是否存在目标信息；若是，则根据预设规则对所述目标信息进行处理，得到目标数。本发明适用于数据的处理的过程中。
数据处理方法装置

[发明专利]网页爬取方法及装置-CN201811145540.3有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2018-09-29 - 公布日： 2023-05-12 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种网页爬取方法及装置，涉及爬取技术领域。本发明主要解决了现有技术中无法基于预先创建的爬取架构形成一个新的爬取架构对网页进行爬取的问题。本发明的方法包括：获取目标网页的域名，并确定与所述域名相匹配的规则；判断预先创建的第一爬取构架中是否包含与所述域名相匹配的至少部分规则；若所述第一爬取构架中包含与所述域名相匹配的至少部分规则，则从所述第一爬取构架中继承所述至少部分规则；根据所述至少部分规则，创建第二爬取架构，通过所述第二爬取构架对所述目标网页进行爬取。本发明可广泛应用于爬取网页的场景中。
网页方法装置

[发明专利]排序方法及装置-CN201811098445.2有效
发明人： 何熠皓;方朝增 -专利权人：北京国双科技有限公司
申请日： 2018-09-20 - 公布日： 2023-05-09 - 主分类号： G06F8/20 文献下载
摘要：本发明公开了一种排序方法及装置，涉及数据处理技术领域。本发明主要解决了现有技术的排名机制无法按照有用程度对Schema的进行排序的问题。本发明的方法包括：获取目标Schema；计算每个目标Schema的基础热度值，所述基础热度值为所述目标Schema被直接应用的次数；计算每个目标Schema的贡献热度值，所述贡献热度值为所述目标Schema被引用的次数；根据所述目标Schema的基础热度值和所述目标Schema的贡献热度值对所述目标Schema进行排序。本发明可广泛应用于对Schema进行排序的场景中。
排序方法装置

[发明专利]一种页面内容提取方法和装置-CN202011488109.6在审
发明人： 何熠皓 -专利权人：国信君和（北京）科技有限公司
申请日： 2020-12-16 - 公布日： 2022-06-17 - 主分类号： G06F8/38 文献下载
摘要：本发明公开了一种页面内容提取方法和装置。该方法包括：获取页面对应的目标文档对象模型DOM树；从所述目标DOM树的根元素节点开始，针对所述目标DOM树中的元素节点执行渲染区域去重处理，得到去重DOM树；在所述去重DOM树中，提取每个元素节点的视觉特征；解析并且执行预设的接口模板，通过所述接口模板从多个所述视觉特征中提取所述页面的页面内容；其中，所述接口模板中设置了用于匹配所述页面内容的内容提取条件。本实施例利用视觉特征这一较为稳定的特征来定位元素节点，更加便于理解，不易出现定位失败的问题，而且接口模板是以声明的方式提取页面内容，提取方式便捷易操作。
一种页面内容提取方法装置

[发明专利]一种数据处理方法和客户端设备-CN201611216634.6有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2016-12-23 - 公布日： 2022-03-25 - 主分类号： G06F16/951 文献下载
摘要：本发明实施例提供了一种数据处理方法和客户端设备，可以使客户端设备灵活选用不同的爬取速度，提高爬取效率。本发明实施例的方法包括：客户端设备获取目标爬取任务；所述客户端设备获取当前移动时间窗口的请求数，所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口；所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
一种数据处理方法客户端设备

[发明专利]一种爬虫的爬取方法及装置-CN201710749195.3有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2017-08-28 - 公布日： 2022-03-01 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种爬虫的爬取方法及装置，涉及计算机技术领域，主要目的在于使得爬虫爬取到的数据能够覆盖更多的页面层级，本发明的主要技术方案为：获取待爬取的同一层级下每个页面对应的所有URL链接；从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列；以所述待爬取队列中的URL链接作为入口，对所述URL链接对应页面中的页面内容进行爬取。本发明主要用于页面中URL链接的爬取。
一种爬虫方法装置

[发明专利]一种数据处理方法和客户端设备-CN201611159537.8有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2016-12-14 - 公布日： 2021-12-24 - 主分类号： G06F16/951 文献下载
摘要：本发明实施例提供了一种数据处理方法和客户端设备，能够让用户通过简单的表达式，对目标域名下的url进行筛选。本发明实施例提供了一种数据处理方法，包括：客户端设备获取用户输入的模板信息，所述模板信息用于描述url的匹配规则，所述url为与所述模板信息对应的目标域名下的url；所述客户端设备按照预置的规则将所述模板信息转化为正则表达式；所述客户端设备在所述url中获取与所述正则表达式匹配的第一目标url；所述客户端设备将所述第一目标url添加到待爬取队列。
一种数据处理方法客户端设备

[发明专利]数据爬取应用的创建方法、装置、存储介质及设备-CN201911168511.3在审
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2019-11-25 - 公布日： 2021-05-25 - 主分类号： G06F16/951 文献下载
摘要：本公开涉及一种数据爬取应用的创建方法、装置、存储介质及设备。所述方法包括：定义用于输入所述数据爬取单元的请求参数，所述请求参数中至少包括：待爬取网址；基于所述请求参数中的待爬取网址，执行模拟数据爬取，获得响应数据；根据所述响应数据，确定输出数据；将所述数据爬取单元进行封装，得到所述数据爬取应用，其中，所述数据爬取应用的输入接口根据所述请求参数定义，所述数据爬取应用的输出接口根据所述输出数据定义。由此，通过抽象封装方法生成能够进行数据爬取的数据爬取单元，并基于数据爬取单元生成数据爬取应用，供用户直接使用以实现数据爬取功能，无需重复编写代码，提升数据爬取的效率，可用性强。
数据应用创建方法装置存储介质设备

[发明专利]对爬取控制指令的处理方法及装置-CN201910942188.4在审
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2019-09-30 - 公布日： 2021-03-30 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种对爬取控制指令的处理方法及装置，可以获得爬取控制指令，识别所述爬取控制指令中的各标记token，确定识别的所述token的参数，所述参数包括类型和/或值；生成与所述token对应的语法树节点，所述语法树节点携带有对应的所述token的参数；根据所述token的参数，设置在所述爬取控制指令中相邻的token对应的语法树节点在语法树中的位置，获得语法树；将所述语法树转换为表达式树；根据所述表达式树生成可执行对象，以使计算机执行所述可执行对象后实现所述爬取控制指令的控制结果。本发明提供了一种可以通过简易易懂的爬取控制指令对信息爬取过程进行控制的方案，该爬取控制指令可以被本发明转换为可执行对象，无需技术人员熟悉编程语言。
控制指令处理方法装置

[发明专利]网页数据采集的方法和装置-CN201510591436.7有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2015-09-16 - 公布日： 2021-02-12 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种网页数据采集的方法和装置，涉及互联网技术领域，能够解决现有技术中当目标网页页面布局或者数据提取需求发生改变时，数据采集程序需要大幅度改变，从而造成灵活性低的问题。本发明的方法包括：下载目标网页的网页内容；将网页内容的格式转化为可扩展标记语言XML格式；获取对应目标网页的配置文件，配置文件中包括至少一个规则配置项，规则配置项为用于定位和提取目标数据所需的配置参数；根据配置文件，从XML格式的网页内容中提取目标数据。本发明适用于利用配置文件的配置信息采集网页数据的场景中。
网页数据采集方法装置

[发明专利]抓取页面信息的方法及装置-CN201510564861.7有效
发明人：郑国良;何熠皓 -专利权人：北京国双科技有限公司
申请日： 2015-09-07 - 公布日： 2020-05-19 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种抓取页面信息的方法及装置，涉及互联网技术领域，为解决现有技术中无法从页面信息中获得SEM信息的问题而发明。本发明的方法包括：获取关键词，关键词用于查询获得搜索结果页；根据关键词生成搜索结果页的统一资源定位符URL；构造包含URL的网络浏览器对象，并将网络浏览器对象加载到浏览器容器对象中；在浏览器容器对象中获取对应网络浏览器对象的页面源代码，页面源代码为搜索结果页的源代码；解析页面源代码，获得搜索引擎营销SEM信息。本发明适合应用在获取搜索网站的SEM信息的过程中。
抓取页面信息方法装置

[发明专利]网页爬取请求处理方法和装置-CN201510728872.4有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2015-10-30 - 公布日： 2020-02-28 - 主分类号： G06F16/951 文献下载
摘要：本申请公开了一种网页爬取请求处理方法和装置。其中，该方法包括：获取新解析得到的待爬取请求，其中，待爬取请求包括待爬取页面的链接；判断是否存在存储文件，其中，存储文件用于存储待爬取请求；在判断出不存在存储文件时，将新解析得到的待爬取请求存储于请求队列中；以及在判断出存在存储文件时，将新解析得到的待爬取请求存储于存储文件中。本申请解决了直接将大量的网页爬取请求存储于内存中耗费内存空间的技术问题。
网页请求处理方法装置

[发明专利]网页爬取方法和装置-CN201510729544.6有效
发明人： 何熠皓 -专利权人：北京国双科技有限公司
申请日： 2015-10-30 - 公布日： 2020-02-07 - 主分类号： G06F16/951 文献下载
摘要：本申请公开了一种网页爬取方法和装置。其中，该方法包括：多台服务器分别从任务队列中获取关键词组，其中，任务队列中存储有多个待爬取的关键词组，每个待爬取的关键词组包含多个关键词；以及多台服务器分别通过各自的网络爬虫爬取获取的关键词组中每个关键词对应的搜索引擎结果页。本申请解决了相关技术中通过单台服务器的网络爬虫爬取关键词搜索引擎结果页时效率较低的技术问题。
网页方法装置

1
共 13 条