[发明专利]链接地址确定方法、装置、计算机可读存储介质及设备有效

申请号：	201911035519.2	申请日：	2019-10-29
公开（公告）号：	CN112749351B	公开（公告）日：	2023-07-28
发明（设计）人：	邱明昊;陈阳	申请（专利权）人：	金色熊猫有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	隆天知识产权代理有限公司 72003	代理人：	章侃铱;郑特强
地址：	中国香港铜锣湾希慎***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	链接地址确定方法装置计算机可读存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备；涉及计算机技术领域。该方法包括：获取第一网页代码，并根据第一网页代码获取第二网页代码；比对第一网页代码与第二网页代码，确定第一网页代码中的第一差异代码和第二网页代码中的第二差异代码，其中，第一差异代码和第二差异代码均用于表示第一网页与第二网页的不同；确定第一网页代码中各链接地址对应的坐标信息，并根据坐标信息确定满足预置条件的目标坐标信息；从第一差异代码和第二差异代码中分别确定与目标坐标信息对应的目标链接地址。本公开中的方法能够在一定程度上克服确定特定网页内容链接的效率较低的问题，提升确定网页内容链接的效率。

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备。

背景技术

网络爬虫又称网络蜘蛛、网络蚂蚁或网络机器人等，是一种在网络上根据事先给定的规则自动爬行以抓取网页信息的程序或者脚本。当人们需要从大量的网页中收集特定的网页内容链接时，可以使用爬虫程序通过预设规则筛选得到所需的特定网页内容链接。但是，上述的通过预设规则对每个网页进行判定的方式会使得确定特定网页内容链接的效率较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备，在一定程度上克服确定特定网页内容链接的效率较低的问题，提升确定网页内容链接的效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种链接地址确定方法，包括：

获取第一网页代码，并根据第一网页代码获取第二网页代码；

比对第一网页代码与第二网页代码，确定第一网页代码中的第一差异代码和第二网页代码中的第二差异代码，其中，第一差异代码和第二差异代码均用于表示第一网页与第二网页的不同；

确定第一网页代码中各链接地址对应的坐标信息，并根据坐标信息确定满足预置条件的目标坐标信息；

从第一差异代码和第二差异代码中分别确定与目标坐标信息对应的目标链接地址。

在本公开的一种示例性实施例中，获取第一网页代码，并根据第一网页代码获取第二网页代码，包括：

根据预设网页链接地址加载第一网页并存储第一网页代码；

根据第一网页代码中的代码逻辑确定用于加载第二网页的网页链接地址；