[发明专利]一种网页信息识别系统在审

专利信息
申请号: 202110217963.7 申请日: 2021-02-26
公开(公告)号: CN112784135A 公开(公告)日: 2021-05-11
发明(设计)人: 张冶青 申请(专利权)人: 张冶青
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535;G06F16/955
代理公司: 重庆西南华渝专利代理有限公司 50270 代理人: 涂强
地址: 400000 重庆市九*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 识别 系统
【权利要求书】:

1.一种网页信息识别系统,其特征在于,包括:

路径识别模块,用于基于目标网页的内容识别获取K个标签路径;每个所述标签路径包括第一节点至第N节点,所述第一节点为子节点,所述第N节点为子子节点,其中,N表示节点的层级,K和N为正整数;

路径标识模块,用于通过预设节点属性标识K个所述标签路径,获得K个标识文档;

向量化处理模块,用于通过向量化处理将K个所述标识文档转化为K个高维向量集合;

聚类处理模块,用于对K个所述高维向量集合进行聚类处理,获得K个第一候选节点集合;

校验模块,用于校验K个所述第一候选节点集合,获得M个第二候选节点集合,其中,M为小于或者等于K的正整数;

网页信息识别模块,用于基于每个第二候选节点集合,使用最优选择算法获取M个最优列表节点集合;

网页信息输出模块,用于在目标网页上标记M个所述最优列表节点集合中的最优列表节点。

2.如权利要求1所述的网页信息识别系统,其特征在于,所述路径识别模块包括节点树建立单元、根节点遍历单元、子节点遍历单元和标签路径输出单元;

所述节点树建立单元识别获取目标网页中的网页节点,并根据网页节点的关联关系建立节点树;

所述根节点遍历单元用于获取所述节点树的根节点,并遍历属于所述根节点的所有子节点;

所述子节点遍历单元用于获取属于所述子节点的子子节点,并遍历所述子节点到所述子子节点的节点路径;

所述标签路径输出单元用于输出具有最大节点层级总数的节点路径作为所述标签路径。

3.如权利要求2所述的网页信息识别系统,其特征在于,所述路径识别模块还包括节点过滤单元;

所述节点过滤单元用于在所述根节点遍历单元遍历属于所述根节点的所有子节点之前,过滤所述目标网页中预设类型的网页节点。

4.如权利要求3所述的网页信息识别系统,其特征在于,所述预设类型的网页节点包括div标签、span标签、ul标签、li标签中的至少一个。

5.如权利要求1所述的网页信息识别系统,其特征在于,所述校验模块包括节点校验单元;

所述节点校验单元用于遍历K个所述第一候选节点集合;

若第k个所述第一候选节点集合中,任意的两个第一候选节点不包括相同父节点,则删除第k个所述第一候选节点集合;

其中,k为小于或者等于K的正整数。

6.如权利要求1所述的网页信息识别系统,其特征在于,所述网页信息输出模块包括标识分配单元;

所述标识分配单元用于对相同层级的最优列表节点分配相同标识方式。

7.如权利要求6所述的网页信息识别系统,其特征在于,所述标识方式包括在所述目标网页上框选出所述最优列表节点所对应的网页内容;

不同所述标识方式使用的框选颜色不同,相同所述标识方式使用的框选颜色相同。

8.如权利要求1所述的网页信息识别系统,其特征在于,所述预设节点属性包括标签名称、id属性、class属性中的至少一个。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张冶青,未经张冶青许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110217963.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top