[发明专利]一种网页信息抽取方法及装置无效
申请号: | 201310320279.7 | 申请日: | 2013-07-26 |
公开(公告)号: | CN103345532A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 李杨瑞;崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 抽取 方法 装置 | ||
技术领域
本发明涉及网络技术领域,具体涉及一种网页信息抽取方法及装置。
背景技术
随着互联网技术的不断发展,互联网已经成为重要的信息发布平台,如何快速准确的从互联网获取用户需要的信息,成为一个亟待解决的问题。网页信息抽取,将互联网作为信息源,从不同的信息源中获取用户感兴趣的网页,进行信息抽取后,将抽取的信息存放在数据库中,使用户可以利用数据库的信息进行信息查询、搜索、数据挖掘或者数据分析。网页信息抽取的目的是将网页文本化呈现的半结构化信息抽取出来,并将其表示为结构化的数据,从而将难以处理的文本信息转换为容易处理、分析的结构化数据。
目前,常用的网页信息抽取方法主要基于通用算法实现,具体步骤如下:
首先,分析不同站点的网页信息,根据其具有的特征设置该站点包含的所有条目(如标题、正文、时间等)的规则。例如,分析新浪新闻类网页的标题所具有的特征,并据其抽象至少一条针对标题的抽取规则。
其次,统计不同站点针对同一条目设置的规则,提取其中具有共性的规则,同时,还要记录各个站点针对该条目所具有的特殊规则,来保证召回率。
然后,在需要进行网页信息抽取时,先加载待抽取信息对应的规则,判断待抽取网页中是否存在与加载的规则相符的信息:再与待抽取网页匹配,如果存在,则抽取该信息;如果不存在,则判定抽取失败。
如此方案,就存在以下缺点:
因为要逐个分析不同站点的网页,才能根据分析结果设置对应的抽取规则,导致抽取规则的设置周期较长。
另外,为了减少数据库保存的数据量,虽会提取不同站点针对同一条目的共性规则,但各站点还可能具有很多特殊规则,这就大大限制了减少数据保存量的效果;与此同时,因各站点针对同一条目可能具有各自的特殊规则,而这些特殊规则之间又可能互斥的,因此无法同时抽取这些具有互斥规则的站点的网页信息,如,一般网站对于新闻来源提取的位置规则为在标题附近、正文之前,而某些政府类网站的新闻来源则位于正文之后,显然不能利用位置规则同时抽取这两种类型网站的新闻来源。
发明内容
本发明实施例的网页信息抽取方法及装置,实现准确可靠的进行网页信息抽取的目的。
为此,本发明实施例提供如下技术方案:
一种网页信息抽取方法,所述方法包括:
根据待抽取网页的页面信息确定所述待抽取网页的身份标签;
在样本数据库中查找所述待抽取网页的身份标签对应的样本集合,所述样本集合包括至少一个文档对象模型DOM样本;
从所述至少一个DOM样本中选取一个作为当前DOM样本,并利用所述当前DOM样本与所述待抽取网页解析出的DOM结构相匹配:
如果匹配成功,则根据待抽取信息在所述当前DOM样本中的位置定位所述待抽取信息在所述DOM结构的节点,并利用所述节点获取所述待抽取信息;
如果匹配失败,则继续执行所述选取当前DOM样本的步骤,直至每个DOM样本均匹配失败后返回抽取失败的消息。
优选的,创建所述样本数据库的方式为:
分析网页解析出的DOM结构,并提取所述DOM结构对应的DOM样本;
以所述网页的身份标签为关键字将提取出的DOM样本组织成样本集合;
建立所述样本集合与所述身份标签间的对应关系,并将所述样本集合与所述对应关系保存至所述样本数据库中。
优选的,所述提取所述DOM结构对应的DOM样本,包括:
判断至少两个DOM结构之间是否具有通配性,如果具有,则利用通配符将所述至少两个DOM结构各自对应的DOM样本合成为一个;如果不具有,则提取每个DOM结构对应的DOM样本。
优选的,所述身份标签为站点名称、子站点名称或者搭建工具生成器的签名。
优选的,所述在样本数据库中查找所述待抽取网页的身份标签对应的样本集合,包括:
计算所述待抽取网页的身份标签的哈希值;
查找预设哈希表,确定所述哈希值对应的所述待抽取网页的身份标签的身份编号;
根据所述身份编号确定与其对应的样本集合。
一种网页信息抽取装置,所述装置包括:
身份标签确定单元,用于根据待抽取网页的页面信息确定所述待抽取网页的身份标签;
查找单元,用于在样本数据库中查找所述待抽取网页的身份标签对应的样本集合,所述样本集合包括至少一个文档对象模型DOM样本;
选取单元,用于从所述至少一个DOM样本中选取一个作为当前DOM样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310320279.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置