[发明专利]网页频道导航栏提取方法、系统、电子设备及存储介质有效
| 申请号: | 202011461252.6 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112230989B | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 靳林林;李伟;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
| 主分类号: | G06F8/74 | 分类号: | G06F8/74;G06F8/40;G06F16/954;G06F16/955 |
| 代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 频道 导航 提取 方法 系统 电子设备 存储 介质 | ||
1.一种网页频道导航栏提取方法,其特征在于,包括:
获取待识别网页的网页源码,所述网页源码包含网页频道导航栏,所述网页频道导航栏包括至少一个频道;
对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码;
通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码;
判断所述定位后的源码是否包含a标签;
若定位后的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
若定位后的源码不包含a标签,则通过频道标志符号对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
对所述频道分割数组按照正序排列进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文本和频道URL;
判断频道URL是否存在;
若频道URL不存在,则将URL赋值为空;
若频道URL存在,则判断所述频道URL是否正常;
若所述频道URL不正常,则将URL赋值为空;
若所述频道URL正常,则将URL赋值为所述频道URL;
根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息。
2.如权利要求1所述的网页频道导航栏提取方法,其特征在于,获取待识别网页的网页源码的步骤中,包括:
对待识别网页的URL进行URL下载,得到URL下载结果;
判断所述URL下载结果是否为空;
若所述URL下载结果为空,则返回URL异常;
若所述URL下载结果不为空,则判断网页请求状态码是否等于预设状态码;
若网页请求状态码不等于预设状态码,则返回URL异常;
若网页请求状态码等于预设状态码,则待识别网页的网页源码下载成功。
3.如权利要求1所述的网页频道导航栏提取方法,其特征在于,对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码的步骤中,包括:
通过chardet库对所述网页源码进行编码类型匹配,得到编码类型匹配结果;
若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若编码类型匹配结果为匹配失败,则从网页源码中识别编码类型;
若从网页源码中能够识别出编码类型,则将网页源码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若从网页源码中不能够识别出编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
对转换后的网页源码进行非正文标签去除处理,得到网页正文源码。
4.如权利要求1所述的网页频道导航栏提取方法,其特征在于,通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码的步骤中,包括:
判断网页正文源码中是否包含频道标志符号;
若网页正文源码中包含频道标志符号,则根据所述频道标志符号进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道标志符号,则判断网页正文源码中是否包含频道关键词;
若网页正文源码中包含频道关键词,则根据所述频道关键词进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道关键词,则判断网页正文源码中是否包含发文时间;
若网页正文源码中包含发文时间,则根据所述发文时间进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含发文时间,则网页频道导航栏的位置定位异常。
5.如权利要求4所述的网页频道导航栏提取方法,其特征在于,若网页正文源码中包含发文时间,则根据所述发文时间进行网页频道导航栏的位置定位,得到定位后的源码的步骤中,包括:
若网页正文源码中包含发文时间,则遍历网页正文源码中的所有html标签,查找超链接和文本,所述超链接和文本所在位置即为网页频道导航栏的所在位置,得到定位后的源码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461252.6/1.html,转载请声明来源钻瓜专利网。





