[发明专利]基于机器学习模型的网页数据抽取方法在审

申请号：	202210140714.7	申请日：	2022-02-16
公开（公告）号：	CN114692048A	公开（公告）日：	2022-07-01
发明（设计）人：	李广;周号	申请（专利权）人：	重庆帮企科技集团有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06K9/62;G06N20/00
代理公司：	重庆创新专利商标代理有限公司 50125	代理人：	李智祥
地址：	400023 重庆市渝北区龙塔***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习模型网页数据抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及数据处理技术领域，具体涉及一种基于机器学习模型的网页数据抽取方法，包括收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集；选取多个所述训练集的节点，分别得到多个节点特征；建立分类器模型；将多个所述节点特征带入所述分类器模型进行训练并评价，得到每类网页的准确率；基于所述准确率对多类所述网页进行选取，并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试，测试成功保存所述分类器模型，解决了现有的网页数据抽取对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率的问题。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于机器学习模型的网页数据抽取方法。

背景技术

信息时代网页作为互联网信息的主要载体提供了大量的文本信息，虽然图像、音视频等多媒体信息也在日益增多，但是网页文本依旧是互联网信息的主要载体，是研究以及数据挖掘的主要来源。

现有的网页数据抽取的最传统的三种方式：1、基于正则表达式的网页提取；2、基于CSS选择器的网页抽取；3、基于XPATH的网页提取，这三种网页抽取都是基于包装器(wrapper)的网页抽取，这类抽取算法的通病就在于，对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率。

发明内容

本发明的目的在于提供一种基于机器学习模型的网页数据抽取方法，旨在解决现有的网页数据抽取对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率的问题。

为实现上述目的，本发明提供了一种基于机器学习模型的网页数据抽取方法，包括以下步骤：

S1收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集；

S2选取多个所述训练集的节点，分别得到多个节点特征；

S3基于所述节点特征建立分类器模型；

S4将多个所述节点特征带入所述分类器模型进行训练并评价，得到每类网页的准确率；