[发明专利]政策类网页正文提取方法、系统、设备及存储介质有效
申请号: | 202010825873.1 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111966901B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 李钊;卢凤;陈通;王瑞霜;胡传会;魏静 | 申请(专利权)人: | 山东亿云信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F16/958 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 政策 网页 正文 提取 方法 系统 设备 存储 介质 | ||
本发明公开了政策类网页正文提取方法、系统、设备及存储介质,包括:获取政策网页HTML源代码;根据政策网页HTML源代码,获取网页正文所在的位置;根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。
技术领域
本申请涉及网页正文提取技术领域,特别是涉及政策类网页正文提取方法、系统、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
如今有大量的通知、公告、政策都通过网页形式进行公布,现有网页内容解析系统主要关注新闻等文章类网页,大多通过HTML源码结构定位主体内容的方法。但是,政策网页具有不同的网页源码结构,且网页内容布局也和普通新闻类网页有较大差异。因此,现有网页内容解析方法无法准确定位政策网页正文位置,提取效果较差。
发明内容
为了解决现有技术的不足,本申请提供了政策类网页正文提取方法、系统、设备及存储介质;
第一方面,本申请提供了政策类网页正文提取方法;
政策类网页正文提取方法,包括:
获取政策网页HTML源代码;
根据政策网页HTML源代码,获取网页正文所在的位置;
根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。
第二方面,本申请提供了政策类网页正文提取系统;
政策类网页正文提取系统,包括:
源代码获取模块,其被配置为:获取政策网页HTML源代码;
网页正文位置获取模块,其被配置为:根据政策网页HTML源代码,获取网页正文所在的位置;
输出模块,其被配置为:根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
通过分析政策网页的页面组织结构规则,构建网页组织结构和网页正文位置的关系,获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。
本发明的实施使得政策类网页正文的提取实现了快速、高效获取,大大提高了工作效率,节省公司的人力成本,同时经验证,该发明也取得较高的准确率。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿云信息技术有限公司,未经山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010825873.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务模块扩展实现方法和系统
- 下一篇:一种多向运动式卸料机构