[发明专利]资讯数据处理方法、资讯数据处理装置及电子设备在审

申请号：	202210302022.8	申请日：	2022-03-24
公开（公告）号：	CN114969172A	公开（公告）日：	2022-08-30
发明（设计）人：	李季;胡殿明;刘雨亮	申请（专利权）人：	北京感易智能科技有限公司
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/951;G06F16/957;G06F16/958
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	刘亚平
地址：	102425 北京市房山***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	资讯数据处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种资讯数据处理方法、资讯数据处理装置及电子设备，该方法包括：根据目标资讯网页的网址，下载所述目标资讯网页的网页源代码；解析所述网页源代码，得到所述目标资讯网页对应的属性信息集合；基于ETL系统配置的目标函数，对所述属性信息集合进行数据处理，得到目标有效数据。本发明实施例提供的资讯数据处理方法、资讯数据处理装置及电子设备，可以实现精确解析网页源代码，还可以提高解析效率。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种资讯数据处理方法、资讯数据处理装置及电子设备。

背景技术

网络爬虫是一种按照设定的规则，能够自动地抓取网页信息的程序或脚本，利用网络爬虫，可以快速的获取用户所需的网页数据，从而为大规模的数据收集提供技术支撑。

而现有技术中，网络爬虫爬取到网页数据后，根据页面标签，一行一列逐个进行数据解析，解析效率低，且重复代码多。

发明内容

本发明提供一种资讯数据处理方法、资讯数据处理装置及电子设备，用以解决现有技术中无法资讯数据解析效率低的技术问题。

本发明提供一种资讯数据处理方法，包括：

根据目标资讯网页的网址，下载所述目标资讯网页的网页源代码；

解析所述网页源代码，得到所述目标资讯网页对应的属性信息集合；

基于ETL系统配置的目标函数，对所述属性信息集合进行数据处理，得到目标有效数据。

在一个实施例中，所述方法还包括：