[发明专利]一种网页信息识别系统在审
申请号: | 202110217963.7 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112784135A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 张冶青 | 申请(专利权)人: | 张冶青 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 涂强 |
地址: | 400000 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 识别 系统 | ||
本发明适用于计算机技术领域,提供了一种网页信息识别系统,包括路径识别模块、路径标识模块、向量化处理模块、聚类处理模块、校验模块、网页信息识别模块和网页信息输出模块。网页信息识别系统与目标网页对接,从而基于目标网页的内容识别获取目标网页中的标签路径,然后对标签路径进行向量化处理、聚类处理,实现网页内容的自动整理,最终由网页信息输出模块在目标网页上标记最优列表节点集合中的最优列表节点。通过本发明可以实现网页内容的自动整理,且最优列表节点集合中的最优列表节点层级分明,使得标记后的网页内容具有层级划分,进而有助于列表项内容的提取。
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页信息识别系统。
背景技术
随着网络技术的迅速发展,万维网成为当今传输数量最大、传输效率最高的信息数据传输载体,如何有效的从万维网中获取需要的信息数据以及对海量信息的利用,成为网络技术、通信技术领域研究的热点课题。
其中,网络爬虫是常用的网页信息数据获取工具,其原理是按照一定的规则,自动的抓取万维网信息的程序或者脚本,从而读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
但是,通常来说,网络爬虫对其获取的网页信息数据是不进行任何处理的,需要依靠用户自己定义检索的范围并确定最终要获取的数据,使得其仅适用于具有脚本编辑能力的人员。
发明内容
本发明的主要目的在于提出一种网页信息识别系统,以解决现有技术中网页信息数据获取工具的适用范围较窄的问题。
为实现上述目的,本发明实施例提供了一种网页信息识别系统,包括:
路径识别模块,用于基于目标网页的内容识别获取K个标签路径;每个所述标签路径包括第一节点至第N节点,所述第一节点为子节点,所述第N节点为子子节点,其中,N表示节点的层级,K和N为正整数;
路径标识模块,用于通过预设节点属性标识K个所述标签路径,获得K个标识文档;
向量化处理模块,用于通过向量化处理将K个所述标识文档转化为K个高维向量集合;
聚类处理模块,用于对K个所述高维向量集合进行聚类处理,获得K个第一候选节点集合;
校验模块,用于校验K个所述第一候选节点集合,获得M个第二候选节点集合,其中,M为小于或者等于K的正整数;
网页信息识别模块,用于基于每个第二候选节点集合,使用最优选择算法获取M个最优列表节点集合;
网页信息输出模块,用于在目标网页上标记M个所述最优列表节点集合中的最优列表节点。
可选地,所述路径识别模块包括节点树建立单元、根节点遍历单元、子节点遍历单元和标签路径输出单元;
所述节点树建立单元识别获取目标网页中的网页节点,并根据网页节点的关联关系建立节点树;
所述根节点遍历单元用于获取所述节点树的根节点,并遍历属于所述根节点的所有子节点;
所述子节点遍历单元用于获取属于所述子节点的子子节点,并遍历所述子节点到所述子子节点的节点路径;
所述标签路径输出单元用于输出具有最大节点层级总数的节点路径作为所述标签路径。
可选地,所述路径识别模块还包括节点过滤单元;
所述节点过滤单元用于在所述根节点遍历单元遍历属于所述根节点的所有子节点之前,过滤所述目标网页中预设类型的网页节点。
可选地,所述预设类型的节点包括div标签、span标签、ul标签、li标签中的至少一个。
可选地,所述校验模块包括节点校验单元;
所述节点校验单元用于遍历K个所述第一候选节点集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张冶青,未经张冶青许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110217963.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置