[发明专利]网页元素抽取方法和网页元素抽取系统有效
申请号: | 201310432086.0 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103488743A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 王志刚 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;薛峰 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 元素 抽取 方法 系统 | ||
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页元素抽取方法和网页元素抽取系统。
背景技术
一般而言,网页包含的信息丰富而复杂,可以包括有导航、标题、正文、时间、甚至广告等内容。为了在网页中抽取有效的元素,就需要对网页进行精细的分析。在现有技术中,对网页元素抽取的方法存在两种处理方式。
第一种为利用人工设置规则对页面中固定某一区域的元素进行抽取,
第二种为人为地对页面编译语言进行手工标注从而形成网页构造模板,对于大多数简易的网页可以基于网页信息的位置总结出一定的模板形式,这样在抽取一网页信息时,只需要按照该网页对应的模板抽取相应的元素。
上述两种处理方式效率都较低,且存在通用性差,普适性不高的问题,尤其目前互联网中的网页形式千差万别,网页特征维度越来越大,甚至可以达到上百个维度,要从复杂的网页中总结出符合条件的经验公式或者建立标注模板,都是非常困难的。另外,对于维度较多的网页特征,编写出的人工规则必然也是十分繁杂,维护十分复杂;而且在网站改版时,此前的模板可能失效,从而导致抽取的元素出现偏差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页元素抽取方法和网页元素抽取系统。
依据本发明的一个方面,提供了一种网页元素抽取方法。该网页元素抽取方法包括:构建网页对应的DOM树结构;使用决策树对DOM树结构中各结点进行分类,根据分类结果构建网页的第一分块序列;将第一分块序列输入条件随机场进行优化计算,得到第二分块序列;在第二分块序列中选取预设类型的序列元素,并抽取序列元素对应的网页元素。
可选地,使用决策树对DOM树结构中各结点进行分类包括:遍历DOM树,获取DOM树中各结点的维度特征;将各结点的维度特征按照预定规则输入决策树,对各结点进行分类。
可选地,遍历DOM树进一步包括:对DOM树进行后跟遍历,并通过累加当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征和/或累加当前遍历结点自身所带的维度特征以及当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征。
可选地,将各结点的维度特征按照预定规则输入决策树进一步包括:按照先跟遍历的顺序依次将DOM树中各结点的维度特征输入决策树。
可选地,结点的维度特征至少包括以下的任意一项或多项:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
可选地,第一分块序列的序列元素和第二分块序列的序列元素分别与网页的分块结构对应,网页分块结构的类型至少包括以下的任意一项或多项:导航块、标题块、正文块、日期块、时间块、广告块、作者信息块、垃圾块、目录块。
根据本发明的另一方面,提供了一种网页元素抽取系统,该网页元素抽取系统包括:DOM树构建器,适于构建网页对应的DOM树结构;决策树分类器,适于使用决策树对DOM树结构中各结点进行分类,根据分类结果构建网页的第一分块序列;条件随机场处理器,适于将第一分块序列输入条件随机场进行优化计算,得到第二分块序列;元素抽取器,适于在第二分块序列中选取预设类型的序列元素,并抽取序列元素对应的网页元素。
可选地,决策树分类器进一步包括:DOM树遍历模块,适于遍历DOM树,获取DOM树中各结点的维度特征;输入模块,适于将各结点的维度特征按照预定规则输入决策树,对各结点进行分类。
可选地,DOM树遍历模块还适于:对DOM树进行后跟遍历,并通过累加当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征和/或累加当前遍历结点自身所带的维度特征以及当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征。
可选地,第一分块序列的序列元素和第二分块序列的序列元素分别与网页的分块结构对应,网页分块结构的类型至少包括以下的任意一项或多项:导航块、标题块、正文块、日期块、时间块、广告块、作者信息块、垃圾块、目录块。
本发明的网页元素抽取方法根据网页的DOM树结构构建网页的分块序列,过滤掉无关块的内容,抽取出需要的网页元素,分块和抽取过程中不需要使用人工规则,解决了人工规则效率低、维护复杂的问题。
进一步地,本发明的网页元素抽取方法中遍历得到DOM树结点的维度特征,经过决策树的分类以及条件随机场的优化计算,分块准确度高,能够满足对复杂多变的网页进行处理的需要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310432086.0/2.html,转载请声明来源钻瓜专利网。