[发明专利]一种基于RPA的企业公示信息数据采集方法在审
申请号: | 202110943612.4 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113779540A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 黄贺宾;许健彰;王雍胜;樊梦哲 | 申请(专利权)人: | 广东融合通信股份有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06F11/34;G06N3/04;G06N3/08 |
代理公司: | 广州恒华智信知识产权代理事务所(普通合伙) 44299 | 代理人: | 唐一鸣 |
地址: | 519000 广东省珠海市横琴新区环岛东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rpa 企业 公示 信息 数据 采集 方法 | ||
本发明公开了基于RPA的企业公示信息数据采集方法,通过分析目标网站的页面元素信息,获取数据采集所需的关键XPath,构建训练yolo目标检测网络模型和孪生网络模型,RPA通过所述yolo目标检测网络模型和孪生网络模型识别匹配验证码图片中的小图标和大图标信息,并点选通过验证,根据获取的关键XPath在目标网站的页面进行输入和点击操作,读取目标企业的页面元素内容并保存到本地txt文件。本发明模拟人工的操作方式来获取企业公示信息,实现友好访问目标网站、操作简单;将手工查询公示网站获取企业信息的工作方式变为系统自动执行搜索、验证码识别与数据拉取的工作方式,提高数据采集效率;模拟人工的网页操作,形成与目标网站的友好且健康交互。
技术领域
本发明涉及数据采集领域,特别是一种基于RPA的企业公示信息数据采集方法。
背景技术
在当今信息时代,随着互联网和信息技术的发展,目标企业的信息和资讯的采集对于大数据分析、业务研究和推广具有重要意义。目前,获取企业公示信息的方法主要为人工操作获取和使用数据爬虫获取。人工操作获取操作慢,成本高,效率低下;数据爬虫获取则是从公示网站中获取信息普遍使用爬虫的方式,爬虫的实现方式是基于HTML的操作,容易造成频繁大量爬取数据,形成对目标网站的不良交互而触发反爬虫机制,不利于企业公示信息数据的高效健康采集。
发明内容
本发明上述问题,提供一种基于RPA的企业公示信息数据采集方法,包括如下步骤:
S1、分析目标网站的页面元素信息,获取数据采集所需的关键XPath;
S2、收集若干数量目标网站的图标点击验证码图片,对所述图标点击验证码图片进行数据标注,构建yolo目标检测网络训练集;
S3、利用所述yolo目标检测网络训练集进行训练,得到yolo目标检测网络模型,所述yolo目标检测网络模型用于RPA对目标网站中任意验证码图片中大图标的识别和标示;
S4、剪切若干所述图标点击验证码图片的大图标和小图标,将所述大图标和小图标两两拼接成孪生网络的训练数据,形成孪生网络训练集;
S5、利用所述孪生网络训练集进行训练,得到孪生网络模型,所述孪生网络模型用于RPA对目标网站验证码图片中小图标与大图标的匹配识别;
S6、访问所述目标网站,RPA通过所述yolo目标检测网络模型和孪生网络模型识别匹配验证码图片中的小图标和大图标信息,并点选通过验证;
S7、所述RPA根据步骤S1中获取的关键XPath在目标网站的页面进行输入和点击操作,读取目标企业的页面元素内容并保存到本地txt文件。
作为本发明进一步地说明,所述步骤S7后还包括第二信息采集步骤S8,所述RPA控制网页跳转新闻网站,获取、保存搜索结果中若干条目标企业相关新闻资讯的标题和链接。
更进一步地,所述步骤S2中进行数据标注的图标点击验证码图片数量在500张以上。
更进一步地,所述数据标注为使用labelImg手动圈出所述图标点击验证码图片中所有的大图标。
更进一步地,所述步骤S3中,使用标准的权重weights进行Darknet框架训练后得到所述yolo目标检测网络模型。
更进一步地,所述孪生网络训练集包含的拼接图片数量在10000张以上。
更进一步地,所述拼接图片的名字以0或1的后缀区分拼接图片中所述大图标与小图标是否相互匹配。
更进一步地,所述步骤S3之后还包括第一识别测试步骤S301,用所述yolo目标检测网络模型测试一批验证码图片,以测试其检测识别数据结果是否达到预期要求;若达到预期要求则继续执行步骤S4,若达不到预期要求则返回步骤S2并增加所述yolo目标检测网络训练集的训练数据量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东融合通信股份有限公司,未经广东融合通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943612.4/2.html,转载请声明来源钻瓜专利网。