[发明专利]政策类网页正文提取方法、系统、设备及存储介质有效

申请号：	202010825873.1	申请日：	2020-08-17
公开（公告）号：	CN111966901B	公开（公告）日：	2021-04-20
发明（设计）人：	李钊;卢凤;陈通;王瑞霜;胡传会;魏静	申请（专利权）人：	山东亿云信息技术有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/955;G06F16/958
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250014 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	政策网页正文提取方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了政策类网页正文提取方法、系统、设备及存储介质，包括：获取政策网页HTML源代码；根据政策网页HTML源代码，获取网页正文所在的位置；根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则，构建网页组织结构和网页正文位置的关系，获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时经验证，该发明也取得较高的准确率。

技术领域

本申请涉及网页正文提取技术领域，特别是涉及政策类网页正文提取方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

如今有大量的通知、公告、政策都通过网页形式进行公布，现有网页内容解析系统主要关注新闻等文章类网页，大多通过HTML源码结构定位主体内容的方法。但是，政策网页具有不同的网页源码结构，且网页内容布局也和普通新闻类网页有较大差异。因此，现有网页内容解析方法无法准确定位政策网页正文位置，提取效果较差。

发明内容

为了解决现有技术的不足，本申请提供了政策类网页正文提取方法、系统、设备及存储介质；

第一方面，本申请提供了政策类网页正文提取方法；

政策类网页正文提取方法，包括：

获取政策网页HTML源代码；

根据政策网页HTML源代码，获取网页正文所在的位置；

根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。