[发明专利]一种基于RPA的爬虫方法在审

申请号：	202211329585.2	申请日：	2022-10-27
公开（公告）号：	CN115687729A	公开（公告）日：	2023-02-03
发明（设计）人：	李波;岳永胜	申请（专利权）人：	四川启睿克科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F9/445
代理公司：	四川省成都市天策商标专利事务所(有限合伙) 51213	代理人：	刘兴亮
地址：	610000 四川省成都市中国（四川）***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 rpa 爬虫方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于RPA的爬虫方法，通过在RPA软件中组件化爬虫脚本，通过傻瓜式拖拽操作高效完成爬虫开发工作；借助RPA软件执行时模拟人为操作特点，规避大多数反爬虫手段；具有技术要求低、效率高、隐蔽性好等特点。

技术领域

本发明涉及软件开发技术领域，尤其涉及一种基于RPA的爬虫方法。

背景技术

在软件设计领域，针对爬虫需求通常采用python编码方法实现：明确目标，找到想要爬取数据的网页，分析网页结构，找到需要爬取数据所在的标签位置；模拟Http网络请求，向服务器发送请求，获取服务器返回的html，使用正则表达式或xpath等方法从Html中提取需要的数据；对提取的数据进行加工，显示成可以直观查看的形式。由于此方法整个过程均由爬虫脚本完成，因此存在诸多缺陷：(1)各个环节均需要编写脚本完成，对人员专业要求极高；(2)层出不穷的反爬虫手段极大增加爬虫脚本编写难度，甚至导致爬虫失效。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于RPA的爬虫方法，本发明采用基于RPA软件的爬虫开发方法，解决爬虫脚本编写技术门槛高，且容易被反制的问题。

本发明通过以下技术方案来实现上述目的：

一种基于RPA的爬虫方法，包括以下步骤：

步骤1，引入selenium库编写打开浏览器、获取网页元素值、验证码识别等爬虫相关组件(组件可复用)；

步骤2，找到想要爬取数据的网页，分析网页结构，找到需要爬取数据所在的标签位置；

步骤3，在RPA软件设计器中通过可视化界面拖拽控件方式定义抓取、处理、加工等流程；

步骤4，多服务部署RPA软件执行器，设置不规律执行时间及ip代理，启动执行器。

进一步方案为，所述步骤1中，引入selenium包编写打开浏览器组件，通过传入参数type区分不同浏览器；当传入“Internet Explorer”时调用IE浏览器驱动程序IEDriverServer.exe，当传入“Chrome”时调用Chrome浏览器驱动程序chromeDriver.exe；通过传入参数url定位到指定网页。同样方式开发“获取网页元素值”等其他组件。

进一步方案为，所述步骤2中，双击运行RPA设计器软件，进入插件库模块导入步骤1中完成的组件。

进一步方案为，所述步骤3中，进入项目库模块创建项目后进入项目编辑界面，通过拖拽界面中的各类组件图标和连线画爬虫流程图，保存项目。

进一步方案为，所述步骤4中，按照步骤2方式安装RPA执行器软件，设置执行时间及ip代理等，启动执行器即可，执行器将根据步骤3定义的爬虫流程模拟真人操作鼠标、键盘、浏览器等实现爬虫功能。

本发明的有益效果在于：

本发明的一种基于RPA的爬虫方法，通过在RPA软件中组件化爬虫脚本，通过傻瓜式拖拽操作高效完成爬虫开发工作；借助RPA软件执行时模拟人为操作特点，规避大多数反爬虫手段；具有技术要求低、效率高、隐蔽性好等特点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于RPA技术开发爬虫的逻辑流程图。

图2为本发明基于RPA软件拖拽方式配置爬虫实例。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司，未经四川启睿克科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211329585.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于RPA的爬虫方法在审

专利文献下载