[发明专利]一种网页关键模块提取方法及装置有效

申请号：	201711402540.2	申请日：	2017-12-22
公开（公告）号：	CN110020247B	公开（公告）日：	2021-05-14
发明（设计）人：	初光磊;丁彬;段盼盼;李学环;齐骥;钱岭;吴昊天;邱雨;王瑶	申请（专利权）人：	中移（苏州）软件技术有限公司;中国移动通信集团公司
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/954
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	215163 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页关键模块提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网页关键模块提取方法及装置，通过获取目标网页中包含的有效链接，以及包含有效链接的标签，确定包含有效链接的标签的公共父网页模块，将公共父网页模块中包含有效链接数目最多的父网页模块，作为网页关键模块，从而可在缺少视觉特征的情况下，进行网页关键模块的提取。

技术领域

本发明涉及互联网技术领域，尤其涉及一种网页关键模块提取方法及装置。

背景技术

在如今信息爆炸的时代，网络扮演着非常重要的角色，而网页上包含的信息内容也变得丰富复杂，例如在网页上可包含导航、标题、正文、时间、甚至广告等内容，在网页上各种类型的数据混杂在一起，这就给用户提取关键且有效的信息带来了一定的麻烦。

现有技术中，为了能够在网页中抽取出有效的内容，往往需要对网页进行精细的分析，进而提取出页面上的关键信息。目前，在网页信息的提取中常采用的是基于视觉特征的网页信息提取。该网页信息提取采用的是基于视觉的页面分割(Vision-based PageSegmentation，VIPS)算法，通过文档对象模型(Document Object Mode，DOM)树结构以及视觉特征提取网页的关键信息。具体的，通过视觉可以直观的判断出网页上各部分的内容，再根据DOM树结构判断节点是否可分，即判断网页上的各部分内容所对应的标签是否有子页面，对子页面进行划分，直至子页面不可继续划分为止，则将视觉上可直接看到的部分信息作为关键信息提取出来。如果视觉上不可以直观的得出网页上的关键信息，那么就无法提取出网页上的关键信息。

发明内容

本发明的目的是提供一种网页关键模块提取方法及装置，以解决在缺少视觉特征时，如何提取网页关键模块的问题。

本发明的目的是通过以下技术方案实现的：

本发明一方面提供了一种网页关键模块提取方法，包括：

获取目标网页中包含的有效链接，以及包含所述有效链接的标签，所述有效链接为指向网页内部的详情页链接；

确定包含所述有效链接的标签的公共父网页模块；

将所述公共父网页模块中包含所述有效链接数目最多的父网页模块，作为所述网页关键模块。

可选的，所述获取目标网页中包含的有效链接，以及包含所述有效链接的标签，包括：

获取目标网页中直接包含链接的所有标签；

在所述所有标签直接包含的链接中删除无效链接，得到目标网页中包含的有效链接；

在所述所有标签中删除所述无效链接对应的标签，得到包含所述有效链接的标签。

可选的，所述无效链接包括如下链接中的至少一项：