[发明专利]链接地址确定方法、装置、计算机可读存储介质及设备有效
申请号: | 201911035519.2 | 申请日: | 2019-10-29 |
公开(公告)号: | CN112749351B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 邱明昊;陈阳 | 申请(专利权)人: | 金色熊猫有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 中国香港铜锣湾希慎*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 链接 地址 确定 方法 装置 计算机 可读 存储 介质 设备 | ||
本公开提供一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备;涉及计算机技术领域。该方法包括:获取第一网页代码,并根据第一网页代码获取第二网页代码;比对第一网页代码与第二网页代码,确定第一网页代码中的第一差异代码和第二网页代码中的第二差异代码,其中,第一差异代码和第二差异代码均用于表示第一网页与第二网页的不同;确定第一网页代码中各链接地址对应的坐标信息,并根据坐标信息确定满足预置条件的目标坐标信息;从第一差异代码和第二差异代码中分别确定与目标坐标信息对应的目标链接地址。本公开中的方法能够在一定程度上克服确定特定网页内容链接的效率较低的问题,提升确定网页内容链接的效率。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备。
背景技术
网络爬虫又称网络蜘蛛、网络蚂蚁或网络机器人等,是一种在网络上根据事先给定的规则自动爬行以抓取网页信息的程序或者脚本。当人们需要从大量的网页中收集特定的网页内容链接时,可以使用爬虫程序通过预设规则筛选得到所需的特定网页内容链接。但是,上述的通过预设规则对每个网页进行判定的方式会使得确定特定网页内容链接的效率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种链接地址确定方法、链接地址确定装置、计算机可读存储介质及电子设备,在一定程度上克服确定特定网页内容链接的效率较低的问题,提升确定网页内容链接的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种链接地址确定方法,包括:
获取第一网页代码,并根据第一网页代码获取第二网页代码;
比对第一网页代码与第二网页代码,确定第一网页代码中的第一差异代码和第二网页代码中的第二差异代码,其中,第一差异代码和第二差异代码均用于表示第一网页与第二网页的不同;
确定第一网页代码中各链接地址对应的坐标信息,并根据坐标信息确定满足预置条件的目标坐标信息;
从第一差异代码和第二差异代码中分别确定与目标坐标信息对应的目标链接地址。
在本公开的一种示例性实施例中,获取第一网页代码,并根据第一网页代码获取第二网页代码,包括:
根据预设网页链接地址加载第一网页并存储第一网页代码;
根据第一网页代码中的代码逻辑确定用于加载第二网页的网页链接地址;
加载与网页链接地址对应的第二网页,以获取第二网页代码。
在本公开的一种示例性实施例中,根据第一网页代码中的代码逻辑确定用于加载第二网页的网页链接地址,包括:
根据第一网页代码构建与第一网页对应的第一节点树形结构,通过第一节点树形结构中各节点之间的逻辑关系确定用于加载第二网页的网页链接地址。
在本公开的一种示例性实施例中,比对第一网页代码与第二网页代码的方式为:
根据第二网页代码构建与第二网页对应的第二节点树形结构;
通过循环递归的方式比对第一节点树形结构和第二节点树形结构。
在本公开的一种示例性实施例中,确定第一网页代码中各链接地址对应的坐标信息,包括:
根据预设的映射关系确定第一网页代码中各链接地址分别对应的第一网页中的元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金色熊猫有限公司,未经金色熊猫有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911035519.2/2.html,转载请声明来源钻瓜专利网。