[发明专利]一种互动式网页数据精确采集方法有效

专利信息
申请号: 201910940348.1 申请日: 2019-09-30
公开(公告)号: CN112579852B 公开(公告)日: 2023-01-10
发明(设计)人: 孙再连;吴谋荣;李颜媛 申请(专利权)人: 厦门邑通智能科技集团有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958;G06F16/9535;G06F3/0484;G06F3/0483;G06N20/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 361000 福建省厦门市厦门火*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互动式 网页 数据 精确 采集 方法
【说明书】:

发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:S10:对目标数据的网站网页进行数据结构模型建立;S20:确定网页目标元素并进行模型分析;S30:智能评估有效数据范围并圈定展示;S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。本方法关注用户体验感,提供更多的用户互动场景,且互动方式简便,降低了用户的技术门槛,通过互动,实现精确采集网页数据;本方法采集不同用户对同一网页的操作,形成历史操作记录,历史操作记录能够用于给用户推送操作方案,也能够成为训练集,实现网页的数据结构模型的自我迭代。

技术领域

本发明涉及一种互动式网页数据精确采集方法。

背景技术

信息化时代,随着人类对网络信息的依赖及技术的发展,各种爬虫工具孕育而生。目前市面上主流的数据爬取软件或工具,或基于网页页面元素的分析,或基于数据结构化转化的方法,均需配合人工操作完成数据采集的确认,虽不像传统的网络数据采集那样需要专业的技术人员才能实现数据爬取对象的设置,但在做一些高精度数据采集时仍需要操作人员拥有一定的技术基础才能很好的完成操作,实现数据的采集。

同时,现有的数据爬取软件或工具,多以采集数据为第一目标,进而忽略用户交互体验,在关于网页数据的精准采集实现上,用户的操作较为复杂,要求用户观察现象后进行网页问题点确定,再做相关配置处理,极大提高了使用的技术门槛。

综上,细数现有数据爬取软件或工具,其存在的问题如下:

1、对网络数据的结构化转化仅在同类元素下有效,若页面展示同一模块但采用分块分层的写法编辑时将无法采集其同一模块下的所有数据;

2、用户交互上较为简单,对于需要精准采集的实现需要有些专业化的配置,要求用户拥有一定的技术门槛;

3、不同用户间对同一网站的数据采集是孤立,软件对同网站精准采集中可能存在的问题无法进行分析判断和自我学习,需要大量的冗余操作,造成一定的资源浪费。

发明内容

本发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:

S10:对目标数据的网站网页进行数据结构模型建立;

S20:确定网页目标元素并进行模型分析;

S30:智能评估有效数据范围并圈定展示;

S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。

进一步的,所述S30包括:

S31:智能分析目标数据所在节点所属模块,关联页内同类模块;

S32:标识单页内目标元素的采集范围。

进一步的,所述S10包括对网站网页进行结构分析,提取各元素标签的样式属性并进行多维度的组合分类,再对分类进行相似度评定。

具体的,所述S10包括对网站网页进行判断是否已经做数据结构模型构建,若未构建则进行网站网页数据抓包,获取渲染后的页面源码,分析页面源码后的各标签元素,并标注元素标签层级为A;再提取标签元素的样式属性,进行同样式属性的分类;再根据标注还原同样式属性所在层级,获取同层级同样式属性标签的父节点信息并标注为B,获取不同层级同样式属性标签的父节点信息并标注为C;

圈定标注为B的所有元素为第一目标范围;

对标注为C的所有元素进行相似度算法评估,计算并圈定最为相近的元素为第二目标范围;

所述S20为用户选取所述第一目标范围内的任一元素,系统分析用户选取的元素可能包含的功能项并分别记录;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门邑通智能科技集团有限公司,未经厦门邑通智能科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910940348.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top