[发明专利]基于XPath序列的网页列表解析方法及系统有效

申请号：	202010825868.0	申请日：	2020-08-17
公开（公告）号：	CN111966930B	公开（公告）日：	2021-05-04
发明（设计）人：	李钊;王瑞霜;陈通;卢凤;胡传会;魏静	申请（专利权）人：	山东亿云信息技术有限公司
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/958;G06F40/14
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250014 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 xpath 序列网页列表解析方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于XPath序列的网页列表解析方法及系统，包括：根据URL获取网页的HTML源代码；根据网页的HTML源代码，生成DOM Tree；根据DOM Tree，获取网页中列表项的候选路径；从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；根据简化XPath路径与标签label的字典，获取网页列表项的结果。

技术领域

本申请涉及网页列表解析技术领域，特别是涉及基于XPath序列的网页列表解析方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

随着信息技术的飞速发展，互联网已经成为信息共享的巨大载体。随着网络上信息资源的不断增加，越来越多的公司从网络上获取数据资源来满足自己的需求。因此，网页数据的提取将变得越来越重要而且具有巨大的应用价值和发展前景。列表是网页中一项很重要的数据结构，通过获取列表的信息，进而进行网页内容的提取。由于不同网页中的列表项其HTML编写的样式不同，这将导致很难从不规则的网页中提取出列表信息。

发明人发现，目前，已有一些方法对网页列表进行提取，包括手动和自动提取方法。手动提取需要人根据网页源代码获取其规则，然后再进行提取，这将耗费大量的人力，效率低。自动抽取技术包括根据节点的css样式相似性进行抽取等，这些方式的准确率还有待提高。因此本专利提出一种基于规则的网页列表解析方法，并取得较高的准确率。

发明内容

为了解决现有技术的不足，本申请提供了基于XPath序列的网页列表解析方法及系统；

第一方面，本申请提供了基于XPath序列的网页列表解析方法；

基于XPath序列的网页列表解析方法，包括：

根据URL获取网页的HTML源代码；

根据网页的HTML源代码，生成DOM Tree；

根据DOM Tree，获取网页中列表项的候选路径；

从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；

根据简化XPath路径与标签label的字典，获取网页列表项的结果。

第二方面，本申请提供了基于XPath序列的网页列表解析系统；

基于XPath序列的网页列表解析系统，包括：

第一获取模块，其被配置为：根据URL获取网页的HTML源代码；