[发明专利]网页频道导航栏提取方法、系统、电子设备及存储介质有效
| 申请号: | 202011461252.6 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112230989B | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 靳林林;李伟;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
| 主分类号: | G06F8/74 | 分类号: | G06F8/74;G06F8/40;G06F16/954;G06F16/955 |
| 代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 频道 导航 提取 方法 系统 电子设备 存储 介质 | ||
本发明公开一种网页频道导航栏提取方法、系统、电子设备及存储介质,方法包括:获取网页源码;对网页源码进行编码格式处理和非正文标签去除处理;通过频道标志符号、频道关键词和发文时间进行网页频道导航栏的位置定位,得到定位后的源码;判断定位后的源码是否包含a标签;若包含a标签,则通过a标签得到频道分割数组;若不包含a标签,则通过频道标志符号得到频道分割数组;对频道分割数组按照正序排列进行分级,依次获取频道文本和频道URL;判断频道URL是否正常;若不正常,则将URL赋值为空;若正常,则将URL赋值为频道URL;根据频道文本和URL赋值得到网页频道导航栏的频道信息。该方法实现频道自动识别与提取,无需针对不同网站编写不同解析规则。
技术领域
本发明涉及计算机技术领域,具体涉及到一种网页频道导航栏提取方法、系统、电子设备及存储介质。
背景技术
随着网络的迅速发展,我们对数据的要求也越来越精确,也更要求数据的扩展性,对于网络文章以及对于各个新闻媒体的频道进行提取,在各个行业也有着至关重要的作用。但是现在各大媒体以及新闻网站众多,网站的模板样式也是层出不穷,针对不同网站编写不同解析规则已经无法应对越来越多的网站。
发明内容
有鉴于此,本发明实施例提供了一种网页频道导航栏提取方法、系统、电子设备及存储介质,以提供一种新的网页频道导航栏提取方法,无需针对不同网站编写不同解析规则。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种网页频道导航栏提取方法,包括:获取待识别网页的网页源码,所述网页源码包含网页频道导航栏,所述网页频道导航栏包括至少一个频道;对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码;通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码;判断所述定位后的源码是否包含a标签;若定位后的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;若定位后的源码不包含a标签,则通过频道标志符号对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;对所述频道分割数组按照正序排列进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文本和频道URL;判断频道URL是否存在;若频道URL不存在,则将频道URL赋值为空;若URL存在,则判断所述频道URL是否正常;若所述频道URL不正常,则将URL赋值为空;若所述频道URL正常,则将URL赋值为所述频道URL;根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息。
可选地,获取待识别网页的网页源码的步骤中,包括:对待识别网页的URL进行URL下载,得到URL下载结果;判断所述URL下载结果是否为空;若所述URL下载结果为空,则返回URL异常;若所述URL下载结果不为空,则判断网页请求状态码是否等于预设状态码;若网页请求状态码不等于预设状态码,则返回URL异常;若网页请求状态码等于预设状态码,则待识别网页的网页源码下载成功。
可选地,对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码的步骤中,包括:通过chardet库对所述网页源码进行编码类型匹配,得到编码类型匹配结果;若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;若编码类型匹配结果为匹配失败,则从网页源码中识别编码类型;若从网页源码中能够识别出编码类型,则将网页源码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;若从网页源码中不能够识别出编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;对转换后的网页源码进行非正文标签去除处理,得到网页正文源码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461252.6/2.html,转载请声明来源钻瓜专利网。





