[发明专利]一种基于主题的Web页面清洗方法有效

专利信息
申请号: 201310378986.1 申请日: 2013-08-27
公开(公告)号: CN103440315A 公开(公告)日: 2013-12-11
发明(设计)人: 沈琦;宋清明;张猛;汤艳 申请(专利权)人: 北京工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 web 页面 清洗 方法
【权利要求书】:

1.一种基于主题的Web页面清洗方法,其特征在于,直接在页面中抽取有用信息,针对Web页面标签的复杂多样性和局部固定性,采用正则表达式直接匹配和抽取需要的标签,保留有用信息并自动剔除掉无用信息;包括以下步骤:

步骤一,确定主题领域:人工采集和选取多个样本页面进行分析,提取出关键词,由关键词确定页面内容的主题范围,最终确定主题领域;

步骤二,采集样本页面,并对样本页面的网页结构进行分析,确定页面元素树形结构;

步骤三,确定包含即将抽取的主题内容的抽取内容标签边界<ul>;

步骤四,根据标签边界定义正则表达式匹配规则,利用多个抽取规则组成抽取规则模板;

步骤五,对待清洗页面进行清洗预处理,剔除容易分辨的“噪音”内容;

步骤六,利用已生成的抽取规则模板进行页面清洗,得到清洗后的页面。

2.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤二采集样本页面不需要使用传统的页面清洗方法,一步步分析清除掉不需要的内容块直至保留需要的内容块,而只需要把<dl>与</dl>之间的内容直接匹配出来即可,这样同样达到保留所需信息,过滤“噪声”信息的页面清洗目的。

3.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤四定义正则表达式匹配规则分为两步进行,每一步都需要定义一个Pattern对象:

(a)匹配外层<ul>标签;

(b)针对(a)的匹配结果匹配内层的<a>标签并抽取其内容;

第一个Pattern对象构造的正则表达式抽取规则如下:

Pattern pattern1=Pattern.compile(“<ul([^>]*)>(.*)?</ul>”,Pattern.DOTALL|Pattern.MULTILINE)

上面的Pattern可以把整个<ul>标签从页面中匹配出来,其中“<ul”表示该匹配标签以此开头;“([^>]*)”表示可以匹配除“>”以外所有的字符,可以出现任意多次,并且对其进行分组,实际代表ul标签的属性;“(.*)?”表示ul标签体的内容,就是需要采集的信息块;“</ul>”是ul标签的结束标志;后面的“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数,表示此正则表达式可以进行多行匹配,并且对字母大小写不敏感;

第二个Pattern对象构造的正则表达式抽取规则如下:

Pattern pattern1=Pattern.compile(“<a href=//“([^//“]*)//”(.*)?>(.*)?</a>,Pattern.DOTALL|Pattern.MULTILINE)

上面的Pattern可以匹配出<ul>里的<a>标签,“<a href=”表示匹配标签以此开头;“//“([^//“]*)//””表示href属性的值,也就是超链接的地址;“(.*)?>”表示<a>标签的其它属性;“(.*)?</a>”表示<a>标签的内容以及结束标志;“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数,表示此正则表达式可以进行多行匹配,并且对字母大小写不敏感。

4.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤五对待清洗页面进行清洗预处理的方法如下:

(1)规定“噪音”内容范畴;

一般旅游信息数据都存在于页面的正文段落、列表和表格中,同时考虑其它必要信息的提取,最后得出页面匹配需要抽取的常见标签大致有如下几种:<Meta>、<a>、<p>、<dl>、<ul>、<table>;清洗后的页面必须符合以下规范:

(a)标签的封闭符“<”和“>”,只能出现在包含网页标签的地方,如有其它用途,必须使用它们的转义字符“&lt;”和“&gt;”代替;

(b)标签的属性值如果存在,则必须把它们放在成对的单引号之间;

(c)标签的嵌套顺序必须是正确的;

(d)网页中的单标记节点,末尾都必须加标签闭合标志“<.../>”;

(e)如果不是单标记节点,那么标签必须由起始标签和结束标签组成;“<...>”和“</...>”;

(2)剔除属于“噪音”内容的页面标签及其内容;

将“噪音”标签做为标签边界生成匹配抽取规则进行清洗。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310378986.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top