[发明专利]一种数据采集方法、系统和存储介质在审
申请号: | 202210458666.6 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114896483A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 张成文;翟佩文;莫闻政;陈灿;王林波;李袁;刘振强 | 申请(专利权)人: | 深圳TCL数字技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/451;G06K9/62;G06V30/10 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 李晨幼 |
地址: | 518054 广东省深圳市前湾一路鲤鱼门街一号前海深港*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 采集 方法 系统 存储 介质 | ||
本申请实施例公开了一种数据采集方法、系统和存储介质;本申请实施例可以登录客户端,获取客户端的至少一个候选界面;当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;对所述目标界面进行目标信息的检测:若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。由此,本方案可以提升数据采集的成功率。
技术领域
本申请涉及数据采集领域,具体涉及一种数据采集方法、系统和存储介质。
背景技术
数据采集是指利用多个数据库来接收发自客户端(万维网或手机软件)的数据,并且可以通过这些数据库进行简单的查询和处理工作的过程。进行数据采集时,可以通过网络爬虫进行数据的抓取,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
然而,现有的客户端在登陆后都具有一定的反爬措施,因此,使得用户在进行数据采集时成功率较低,无法直接获取到期望的数据,不能满足用户的需求。
发明内容
本申请实施例提供一种数据采集方法、装置和存储介质,可以提升数据采集的成功率,从而获取到期望的数据,满足用户的需求。
本申请实施例提供一种数据采集方法,包括:
登录客户端,获取客户端的至少一个候选界面;
当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;
从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型;
对目标界面进行目标信息的检测:
若目标界面中不存在目标信息,则对目标界面进行第一数据采集处理,得到目标界面的数据;
若目标界面中存在目标信息,对目标信息进行第二数据采集处理,得到目标信息的数据。
在一些实施例中,当客户端为网站客户端,登录客户端的方法包括:
确定客户端,以及客户端的登录界面;
向客户端的登录界面输入待登录的用户信息,获取客户端反馈的验证界面;
确定验证界面上的验证信息,判断验证信息的类型:
当验证信息为二维码信息时,对登录界面展示的二维码信息进行截图处理,得到二维码图像;
对二维码图像进行扫码登录处理,登录客户端;
当验证信息为登录认证请求时,确定与用户信息绑定的常用终端;
获取常用终端接收到的验证码信息,其中,验证码信息为用于认证登录认证请求的信息;
向客户端的验证界面输入验证码信息,登录客户端。
在一些实施例中,从至少一个候选界面中确定目标界面,目标界面的界面类型为预设类型的方法包括:
将候选界面与预设的目标比对界面进行匹配比对处理;
当候选界面与目标比对界面匹配时,确定候选界面为目标界面。
在一些实施例中,对目标界面进行目标信息的检测的方法包括:
对目标界面进行文字提取处理,获得目标界面的文本信息;
将目标界面的文本信息与设定的目标信息进行文本相似度匹配
若目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则目标界面中存在目标信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳TCL数字技术有限公司,未经深圳TCL数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210458666.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置