[发明专利]一种互动式网页数据精确采集方法有效
申请号: | 201910940348.1 | 申请日: | 2019-09-30 |
公开(公告)号: | CN112579852B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 孙再连;吴谋荣;李颜媛 | 申请(专利权)人: | 厦门邑通智能科技集团有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/9535;G06F3/0484;G06F3/0483;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省厦门市厦门火*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互动式 网页 数据 精确 采集 方法 | ||
本发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:S10:对目标数据的网站网页进行数据结构模型建立;S20:确定网页目标元素并进行模型分析;S30:智能评估有效数据范围并圈定展示;S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。本方法关注用户体验感,提供更多的用户互动场景,且互动方式简便,降低了用户的技术门槛,通过互动,实现精确采集网页数据;本方法采集不同用户对同一网页的操作,形成历史操作记录,历史操作记录能够用于给用户推送操作方案,也能够成为训练集,实现网页的数据结构模型的自我迭代。
技术领域
本发明涉及一种互动式网页数据精确采集方法。
背景技术
信息化时代,随着人类对网络信息的依赖及技术的发展,各种爬虫工具孕育而生。目前市面上主流的数据爬取软件或工具,或基于网页页面元素的分析,或基于数据结构化转化的方法,均需配合人工操作完成数据采集的确认,虽不像传统的网络数据采集那样需要专业的技术人员才能实现数据爬取对象的设置,但在做一些高精度数据采集时仍需要操作人员拥有一定的技术基础才能很好的完成操作,实现数据的采集。
同时,现有的数据爬取软件或工具,多以采集数据为第一目标,进而忽略用户交互体验,在关于网页数据的精准采集实现上,用户的操作较为复杂,要求用户观察现象后进行网页问题点确定,再做相关配置处理,极大提高了使用的技术门槛。
综上,细数现有数据爬取软件或工具,其存在的问题如下:
1、对网络数据的结构化转化仅在同类元素下有效,若页面展示同一模块但采用分块分层的写法编辑时将无法采集其同一模块下的所有数据;
2、用户交互上较为简单,对于需要精准采集的实现需要有些专业化的配置,要求用户拥有一定的技术门槛;
3、不同用户间对同一网站的数据采集是孤立,软件对同网站精准采集中可能存在的问题无法进行分析判断和自我学习,需要大量的冗余操作,造成一定的资源浪费。
发明内容
本发明提供了一种互动式网页数据精确采集方法,结合网页抓包技术与机器学习技术,步骤包括:
S10:对目标数据的网站网页进行数据结构模型建立;
S20:确定网页目标元素并进行模型分析;
S30:智能评估有效数据范围并圈定展示;
S40:判断采集范围内各元素存在事件,与用户进行互动确定,实现精确采集网页数据。
进一步的,所述S30包括:
S31:智能分析目标数据所在节点所属模块,关联页内同类模块;
S32:标识单页内目标元素的采集范围。
进一步的,所述S10包括对网站网页进行结构分析,提取各元素标签的样式属性并进行多维度的组合分类,再对分类进行相似度评定。
具体的,所述S10包括对网站网页进行判断是否已经做数据结构模型构建,若未构建则进行网站网页数据抓包,获取渲染后的页面源码,分析页面源码后的各标签元素,并标注元素标签层级为A;再提取标签元素的样式属性,进行同样式属性的分类;再根据标注还原同样式属性所在层级,获取同层级同样式属性标签的父节点信息并标注为B,获取不同层级同样式属性标签的父节点信息并标注为C;
圈定标注为B的所有元素为第一目标范围;
对标注为C的所有元素进行相似度算法评估,计算并圈定最为相近的元素为第二目标范围;
所述S20为用户选取所述第一目标范围内的任一元素,系统分析用户选取的元素可能包含的功能项并分别记录;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门邑通智能科技集团有限公司,未经厦门邑通智能科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910940348.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于编码转换的数据传输方法、相关设备和系统
- 下一篇:一种静电净化装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置