[发明专利]一种基于RPA的企业公示信息数据采集方法在审
申请号: | 202110943612.4 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113779540A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 黄贺宾;许健彰;王雍胜;樊梦哲 | 申请(专利权)人: | 广东融合通信股份有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06F11/34;G06N3/04;G06N3/08 |
代理公司: | 广州恒华智信知识产权代理事务所(普通合伙) 44299 | 代理人: | 唐一鸣 |
地址: | 519000 广东省珠海市横琴新区环岛东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rpa 企业 公示 信息 数据 采集 方法 | ||
1.一种基于RPA的企业公示信息数据采集方法,其特征在于:包括如下步骤:
S1、分析目标网站的页面元素信息,获取数据采集所需的关键XPath;
S2、收集若干数量目标网站的图标点击验证码图片,对所述图标点击验证码图片进行数据标注,构建yolo目标检测网络训练集;
S3、利用所述yolo目标检测网络训练集进行训练,得到yolo目标检测网络模型,所述yolo目标检测网络模型用于RPA对目标网站中任意验证码图片中大图标的识别和标示;
S4、剪切若干所述图标点击验证码图片的大图标和小图标,将所述大图标和小图标两两拼接成孪生网络的训练数据,形成孪生网络训练集;
S5、利用所述孪生网络训练集进行训练,得到孪生网络模型,所述孪生网络模型用于RPA对目标网站验证码图片中小图标与大图标的匹配识别;
S6、访问所述目标网站,RPA通过所述yolo目标检测网络模型和孪生网络模型识别匹配验证码图片中的小图标和大图标信息,并点选通过验证;
S7、所述RPA根据步骤S1中获取的关键XPath在目标网站的页面进行输入和点击操作,读取目标企业的页面元素内容并保存到本地txt文件。
2.根据权利要求1所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S7后还包括第二信息采集步骤S8,所述RPA控制网页跳转新闻网站,获取、保存搜索结果中若干条目标企业相关新闻资讯的标题和链接。
3.根据权利要求1或2所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S2中进行数据标注的图标点击验证码图片数量在500张以上。
4.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述数据标注为使用labelImg手动圈出所述图标点击验证码图片中所有的大图标。
5.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S3中,使用标准的权重weights进行Darknet框架训练后得到所述yolo目标检测网络模型。
6.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述孪生网络训练集包含的拼接图片数量在10000张以上。
7.根据权利要求6所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述拼接图片的名字以0或1的后缀区分拼接图片中所述大图标与小图标是否相互匹配。
8.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S3之后还包括第一识别测试步骤S301,用所述yolo目标检测网络模型测试一批验证码图片,以测试其检测识别数据结果是否达到预期要求;若达到预期要求则继续执行步骤S4,若达不到预期要求则返回步骤S2并增加所述yolo目标检测网络训练集的训练数据量。
9.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S5之后还包括第二识别测试步骤S501,用所述孪生网络模型测试一批验证码图片,以测试其检测识别数据结果是否达到预期要求;若达到预期要求则继续执行步骤S6,若达不到预期要求则返回步骤S4并增加所述孪生网络训练集的训练数据量。
10.根据权利要求3所述的基于RPA的企业公示信息数据采集方法,其特征在于:所述步骤S6中,RPA根据像素定位大图标在页面上的位置并使用Tagui模拟鼠标的点击操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东融合通信股份有限公司,未经广东融合通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110943612.4/1.html,转载请声明来源钻瓜专利网。