[发明专利]一种网页关键模块提取方法及装置有效
申请号: | 201711402540.2 | 申请日: | 2017-12-22 |
公开(公告)号: | CN110020247B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 初光磊;丁彬;段盼盼;李学环;齐骥;钱岭;吴昊天;邱雨;王瑶 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/954 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 215163 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 关键 模块 提取 方法 装置 | ||
本发明公开了一种网页关键模块提取方法及装置,通过获取目标网页中包含的有效链接,以及包含有效链接的标签,确定包含有效链接的标签的公共父网页模块,将公共父网页模块中包含有效链接数目最多的父网页模块,作为网页关键模块,从而可在缺少视觉特征的情况下,进行网页关键模块的提取。
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页关键模块提取方法及装置。
背景技术
在如今信息爆炸的时代,网络扮演着非常重要的角色,而网页上包含的信息内容也变得丰富复杂,例如在网页上可包含导航、标题、正文、时间、甚至广告等内容,在网页上各种类型的数据混杂在一起,这就给用户提取关键且有效的信息带来了一定的麻烦。
现有技术中,为了能够在网页中抽取出有效的内容,往往需要对网页进行精细的分析,进而提取出页面上的关键信息。目前,在网页信息的提取中常采用的是基于视觉特征的网页信息提取。该网页信息提取采用的是基于视觉的页面分割(Vision-based PageSegmentation,VIPS)算法,通过文档对象模型(Document Object Mode,DOM)树结构以及视觉特征提取网页的关键信息。具体的,通过视觉可以直观的判断出网页上各部分的内容,再根据DOM树结构判断节点是否可分,即判断网页上的各部分内容所对应的标签是否有子页面,对子页面进行划分,直至子页面不可继续划分为止,则将视觉上可直接看到的部分信息作为关键信息提取出来。如果视觉上不可以直观的得出网页上的关键信息,那么就无法提取出网页上的关键信息。
发明内容
本发明的目的是提供一种网页关键模块提取方法及装置,以解决在缺少视觉特征时,如何提取网页关键模块的问题。
本发明的目的是通过以下技术方案实现的:
本发明一方面提供了一种网页关键模块提取方法,包括:
获取目标网页中包含的有效链接,以及包含所述有效链接的标签,所述有效链接为指向网页内部的详情页链接;
确定包含所述有效链接的标签的公共父网页模块;
将所述公共父网页模块中包含所述有效链接数目最多的父网页模块,作为所述网页关键模块。
可选的,所述获取目标网页中包含的有效链接,以及包含所述有效链接的标签,包括:
获取目标网页中直接包含链接的所有标签;
在所述所有标签直接包含的链接中删除无效链接,得到目标网页中包含的有效链接;
在所述所有标签中删除所述无效链接对应的标签,得到包含所述有效链接的标签。
可选的,所述无效链接包括如下链接中的至少一项:
域名与网页的域名不一致的链接;
包含有预先设定关键词的链接;
其中,所述关键词为非详情页链接常用关键词表中的关键词和无用链接常用关键词表中的关键词。
可选的,所述确定包含所述有效链接的标签的公共父网页模块,包括:
获取包含所述有效链接的标签中每个标签的父网页模块;
将各标签的父网页模块两两组合,并针对每个组合分别确定所述组合中每个标签的祖先网页模块之间是否存在祖先-后代关系,所述祖先网页模块为组合中包括的父网页模块的父网页模块;
若所述组合中每个标签的祖先网页模块之间存在祖先-后代关系,则将作为祖先的祖先网页模块作为公共父网页模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711402540.2/2.html,转载请声明来源钻瓜专利网。