[发明专利]一种网页分块提取分块节点的方法在审
申请号: | 201710359495.0 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108509472A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 姚国平 | 申请(专利权)人: | 苏州纯青智能科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华识知识产权代理有限公司 11530 | 代理人: | 陈敏 |
地址: | 215400 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分块 网页分块 兄弟节点 标签 网页 父节点信息 最底层节点 布局标签 视觉属性 文本节点 噪音信息 正文信息 父节点 含量比 内容块 有效地 取下 统计 保证 合并 重复 规划 | ||
一种网页分块提取分块节点的方法,包括以下步骤:将网页中以内容块为个体,规划出若干个标签;根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,则取下一个Node,合并Node下所有的文本节点,统计Node的信息含量,并提取视觉属性,统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;不大于,则重复上述步骤。本方法,有效地去掉了噪音信息,同时,保证分块的准确性,以及保证正文信息的完整性。
技术领域
本发明涉及数据采集技术领域,具体涉及一种网页分块提取分块节点的方法。
背景技术
随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。
随着Web的迅速发展,Web的信息越来越丰富。为了更好的使用Web上的信息,人们不断追求能够有效组强和利用网上信息的技术和系统。然页,Web文档不像传统的文本那样整齐、干净,其中包含大量的噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素加入的广告链接等。这些噪音内容不仅影响Web信息检索的效率,而且还导致了检索准确性的下降。
发明内容
本发明的目的是提供一种网页通过分块方式提取正文信息中提取分块节点的方法,本方法,操作合理,有效地去除了噪音信息,提高了分块的准确性。
本发明是通过以下技术方案来实现的:
一种网页分块提取分块节点的方法,包括以下步骤:
⑴将网页中以内容块为个体,规划出若干个标签;
⑵根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,放入节点列表中,判断列表中的节点是否处理完,处理完,则分块结束;
⑶步骤⑵列表中节点没有处理完,则取下一个Node,合并Node 下所有的文本节点,统计Node的信息含量,并提取视觉属性,判断 Node是不是根节点,以及父节点是否被考察过,如若:Node是根节点,父节点被考察过,则Node可成为分块节点;
⑷步骤⑶中,若Node不是根节点,父节点没被考察过,则统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;
⑸步骤⑷中,若Node与其所有兄弟节点信息含量之和与父节点信息含量比不大于T,则将父节点加入列表中,并删除列表中Node 及其所有兄弟节点,然后重复上述步骤。
进一步地,所述父节点为Node的上一层节点。
进一步地,所述步骤ode与其所有兄弟节点信息含量之和与父节点信息含量比计算公式如下:
其中:将被考察节点的信息含量记为N,该节点的父节点的信息含量记为F,计算该节点所有兄弟节点的信息含量,记为SI,其中i 为自然数,0≤i≤n,n为兄弟节点个数,被考察节点的信息含量加上该节点的所有兄弟节点的信息含量与其父节点的信息含量的比值为R。
进一步地,所述T的值为0.6~0.7之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州纯青智能科技有限公司,未经苏州纯青智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710359495.0/2.html,转载请声明来源钻瓜专利网。