[发明专利]一种网页分块提取分块节点的方法在审
申请号: | 201710359495.0 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108509472A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 姚国平 | 申请(专利权)人: | 苏州纯青智能科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华识知识产权代理有限公司 11530 | 代理人: | 陈敏 |
地址: | 215400 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
一种网页分块提取分块节点的方法,包括以下步骤: |
||
搜索关键词: | 分块 网页分块 兄弟节点 标签 网页 父节点信息 最底层节点 布局标签 视觉属性 文本节点 噪音信息 正文信息 父节点 含量比 内容块 有效地 取下 统计 保证 合并 重复 规划 | ||
【主权项】:
1.一种网页分块提取分块节点的方法,其特征在于:包括以下步骤:⑴将网页中以内容块为个体,规划出若干个标签;⑵根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,放入节点列表中,判断列表中的节点是否处理完,处理完,则分块结束;⑶步骤⑵列表中节点没有处理完,则取下一个Node,合并Node下所有的文本节点,统计Node的信息含量,并提取视觉属性,判断Node是不是根节点,以及父节点是否被考察过,如若:Node是根节点,父节点被考察过,则Node可成为分块节点;⑷步骤⑶中,若Node不是根节点,父节点没被考察过,则统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;⑸步骤⑷中,若Node与其所有兄弟节点信息含量之和与父节点信息含量比不大于T,则将父节点加入列表中,并删除列表中Node及其所有兄弟节点,然后重复上述步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州纯青智能科技有限公司,未经苏州纯青智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710359495.0/,转载请声明来源钻瓜专利网。