[发明专利]一种网页分块提取分块节点的方法在审

专利信息
申请号: 201710359495.0 申请日: 2017-05-19
公开(公告)号: CN108509472A 公开(公告)日: 2018-09-07
发明(设计)人: 姚国平 申请(专利权)人: 苏州纯青智能科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京华识知识产权代理有限公司 11530 代理人: 陈敏
地址: 215400 江苏省苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种网页分块提取分块节点的方法,包括以下步骤:将网页中以内容块为个体,规划出若干个标签;根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,则取下一个Node,合并Node下所有的文本节点,统计Node的信息含量,并提取视觉属性,统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;不大于,则重复上述步骤。本方法,有效地去掉了噪音信息,同时,保证分块的准确性,以及保证正文信息的完整性。
搜索关键词: 分块 网页分块 兄弟节点 标签 网页 父节点信息 最底层节点 布局标签 视觉属性 文本节点 噪音信息 正文信息 父节点 含量比 内容块 有效地 取下 统计 保证 合并 重复 规划
【主权项】:
1.一种网页分块提取分块节点的方法,其特征在于:包括以下步骤:⑴将网页中以内容块为个体,规划出若干个标签;⑵根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,放入节点列表中,判断列表中的节点是否处理完,处理完,则分块结束;⑶步骤⑵列表中节点没有处理完,则取下一个Node,合并Node下所有的文本节点,统计Node的信息含量,并提取视觉属性,判断Node是不是根节点,以及父节点是否被考察过,如若:Node是根节点,父节点被考察过,则Node可成为分块节点;⑷步骤⑶中,若Node不是根节点,父节点没被考察过,则统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;⑸步骤⑷中,若Node与其所有兄弟节点信息含量之和与父节点信息含量比不大于T,则将父节点加入列表中,并删除列表中Node及其所有兄弟节点,然后重复上述步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州纯青智能科技有限公司,未经苏州纯青智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710359495.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top