[发明专利]一种网页信息抽取方法和装置有效
申请号: | 201210579270.3 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103902578A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 王全礼;杨俊拯 | 申请(专利权)人: | 中国移动通信集团四川有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 郭振兴;彭晓玲 |
地址: | 610041*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 抽取 方法 装置 | ||
技术领域
本发明属于一种信息抽取方法,特别涉及一种基于正则表达式的网页信息抽取方法和系统,属于信息处理领域。
背景技术
正则表达式,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
专利《网页信息抽取方法与系统》,申请号:200810036268.5.主要技术方案:一种网页信息抽取方法,通过选择训练网页内容集并提取目标结构化数据;训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;将所述正则表达式写入配置模板;利用所述配置模板采集网页;从所述采集网页中提取结构化数据。
现有技术的缺点如下:
1.上述专利主要解决对一个网站的同类型网页信息的信息抽取,不能扩展到不同类型的网页上。
2.是为一种类型的网页生成一个正则表达式,扩展性不足,另外不是正则的正确性非程序自动验证。
3.通过生成的正则配置模板,人工参与度过高。
目前互联网上包含的信息越来越多,对于在网页上展现的信息,我们可以通过正则表达式来描述,对于不同的网页,所对应的正则表达式往往是不一样,这样就给我们的数据抽取工作带来了很大的工作量。
比如在音乐领域,在互联网上有上万级别的网站来展示音乐信息,如果想把这里上万级别的网页中的歌曲名、歌手名、专辑名及其他音乐信息抽取出来按照原始的方法要手工配置上万级的模板,需要海量的人工工作量。
发明内容
本发明所要解决的技术问题是提供一种网页信息抽取方法和装置,其能够基于正则表达式的自动提取网页中信息,其能够降低对人工工作量的损耗。
本发明解决上述技术问题所采取的技术方案如下:
一种网页信息抽取方法,包括:
1)获取预设的第一信息集合和第一正则表达式群;
2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
3)根据所述第二网页集合和所述第一信息集合生成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;(4)根据所述第三正则表达式群进行网页信息抽取。
进一步地,优选的步骤是,步骤4)中,根据所述第三正则表达式群进行网页信息抽取之前,还包括:根据所述第三正则表达式群在所述第二网页集合中提取信息;根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
一种网页信息抽取装置,包括:
初始化单元,用于获取预设的第一信息集合和第一正则表达式群;
第一信息检索单元,用于根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
信息抽取单元,用于根据所述第三正则表达式群进行网页信息抽取。
进一步地,优选的是,还设有表达式去重单元,用于在根据所述第三正则表达式群进行网页信息抽取之前,根据所述第三正则表达式群在所述第二网页集合中提取信息;
并进一步根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
本发明采取了上述方法以后,能够通过给定一个信息很小的值的集合,并成正则表达式群,并通过验证正则表达式群的准确性,以解决一类信息在所有网站上的数据抽取方法,可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是两个网页获取信息的示例示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团四川有限公司,未经中国移动通信集团四川有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210579270.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置