[发明专利]一种解决字体反爬的爬虫方法在审

专利信息
申请号: 201811101254.7 申请日: 2018-09-20
公开(公告)号: CN109241391A 公开(公告)日: 2019-01-18
发明(设计)人: 陈思言;黄元稳;漆尧 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F17/21
代理公司: 四川省成都市天策商标专利事务所 51213 代理人: 吴瑞芳
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 唯一标识号 映射关系表 图元数据 字体 图元数据库 爬虫 自定义 解析 数据准确性 获取数据 通用性强 映射关系 字体文件 持久性 假数据 灵活的 灵活 网站 标注 更新 保证
【说明书】:

发明公开了一种解决字体反爬的爬虫方法,包括以下步骤:获取数据源网站自定义图元数据库文件;对自定义图元数据库文件中图元数据标注标准唯一标识号;建立真字与图元数据标准唯一标识号的映射关系表;建立假字与图元数据标准唯一标识号的映射关系表;建立真假字映射关系表;反解析。本发明在解决字体反爬时具有持久性高、通用性强等优点,实现灵活获取和更新字体文件、灵活建立真假字映射关系、灵活的反解析假数据,保证最大限度的数据准确性。

技术领域

本发明涉及网络技术领域,特别是一种解决字体反爬的爬虫方法。

背景技术

在爬虫开发过程中主要要解决的核心问题是突破数据源(主要是网站)的反爬技术,常见的反爬技术有IP访问限制、用户登录校验、前端数据动态加载等等,这些反爬技术由来已久,有现行的多种解决方案,但是字体反爬作为之前一种小众的反爬技术,逐渐在大的数据源网站开始流行使用,这种技术会导致爬虫程序获取的数据失去价值,而且目前还未有稳定可靠的解决方案。

字体文件常见的有符合ttf、woff等协议规范的文件,他们大多是由一系列字符的ASCII和供字符显示的图元数据的对应关系组成,并且图元数据一般绘制完成后不会再变更。

主流的字体反爬实现思路大体是采用前端的Css技术让固定的某些元素区域的文本数据采用事先定义好的自定义字体文件,这个字体文件区别于系统本身字体文件,它将系统本身字体文件中某个指向字符B(假字,图元数据显示为B)的ASCII指向了自定义字体文件中的字符A(真字,图元数据显示为A),所以当从后端传输数据B到前端时其实就是假的数据,只有使用自定义字体文件渲染以后,B对应ASCII找到自定义字体中的A,此时前端才会显示正确数据A。这种后端返回错误数据,由前端通过字体文件转换为正确数据的做法就是常见的字体反爬手段,而且在自定义字体的生成上技术也在不断演进,导致字体反爬难度激增。

在采用字体反爬后,爬虫程序将面临以下问题:

首先,如果不解决字体反爬,将会导致爬虫程序即便爬取到了数据,获取的数据中凡是采用了自定义字体的数据也全部是错误数据(混淆过的);

其次,如果要解决字体反爬,怎么确定哪些区域或者字段采用了自定义字体和怎样拿到自定义字体文件也是一个关键性问题;

再者,拿到了自定义字体文件后怎样建立真假字之间的映射关系,并且在爬虫程序中自动化的将假数据转换为真数据也需要认真设计;

最重要的是,如果数据源网站只是单纯的生成了一个自定义字体文件,那么通过手工建立一次真假字映射,然后用在程序中去替换假字,这种方式是可以直接解决字体反爬的;但是,目前部分网站已经采用了自定义字体生成随IP变化且每天每个IP自定义字体重新生成多次,这样等同于之前说到的A和B对应关系时刻都可能更新,变成A和C对应,这样建立一次A和B的映射关系只能支持同一个IP在短时间之内对假数据进行反解析,之后又会导致数据出错,这将是最棘手的问题。

发明内容

为解决现有技术中存在的问题,本发明的目的是提供一种解决字体反爬的爬虫方法,本发明在解决字体反爬时具有持久性高、通用性强等优点,实现灵活获取和更新字体文件、灵活建立真假字映射关系、灵活的反解析假数据,保证最大限度的数据准确性。

为实现上述目的,本发明采用的技术方案是:一种解决字体反爬的爬虫方法,包括以下步骤:

步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站的确采用了自定义字体,确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL。具体方法如下:(1)使用代理IP并抓包查看URL是否一致来判断是否存在不同IP返回URL不一致问题;(2)使用固定IP不同时段并抓包查看URL是否一直来判断是否存在存在固定IP定期更新问题。如若存在上述不一致问题,则根据请求响应提供的信息找到每次浏览器请求字体文件URL变换规律,以便根据此规律组装好URL下载该网站的图元数据库文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811101254.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top