[发明专利]一种基于主题的Web页面清洗方法有效
申请号: | 201310378986.1 | 申请日: | 2013-08-27 |
公开(公告)号: | CN103440315A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 沈琦;宋清明;张猛;汤艳 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 web 页面 清洗 方法 | ||
1.一种基于主题的Web页面清洗方法,其特征在于,直接在页面中抽取有用信息,针对Web页面标签的复杂多样性和局部固定性,采用正则表达式直接匹配和抽取需要的标签,保留有用信息并自动剔除掉无用信息;包括以下步骤:
步骤一,确定主题领域:人工采集和选取多个样本页面进行分析,提取出关键词,由关键词确定页面内容的主题范围,最终确定主题领域;
步骤二,采集样本页面,并对样本页面的网页结构进行分析,确定页面元素树形结构;
步骤三,确定包含即将抽取的主题内容的抽取内容标签边界<ul>;
步骤四,根据标签边界定义正则表达式匹配规则,利用多个抽取规则组成抽取规则模板;
步骤五,对待清洗页面进行清洗预处理,剔除容易分辨的“噪音”内容;
步骤六,利用已生成的抽取规则模板进行页面清洗,得到清洗后的页面。
2.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤二采集样本页面不需要使用传统的页面清洗方法,一步步分析清除掉不需要的内容块直至保留需要的内容块,而只需要把<dl>与</dl>之间的内容直接匹配出来即可,这样同样达到保留所需信息,过滤“噪声”信息的页面清洗目的。
3.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤四定义正则表达式匹配规则分为两步进行,每一步都需要定义一个Pattern对象:
(a)匹配外层<ul>标签;
(b)针对(a)的匹配结果匹配内层的<a>标签并抽取其内容;
第一个Pattern对象构造的正则表达式抽取规则如下:
Pattern pattern1=Pattern.compile(“<ul([^>]*)>(.*)?</ul>”,Pattern.DOTALL|Pattern.MULTILINE)
上面的Pattern可以把整个<ul>标签从页面中匹配出来,其中“<ul”表示该匹配标签以此开头;“([^>]*)”表示可以匹配除“>”以外所有的字符,可以出现任意多次,并且对其进行分组,实际代表ul标签的属性;“(.*)?”表示ul标签体的内容,就是需要采集的信息块;“</ul>”是ul标签的结束标志;后面的“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数,表示此正则表达式可以进行多行匹配,并且对字母大小写不敏感;
第二个Pattern对象构造的正则表达式抽取规则如下:
Pattern pattern1=Pattern.compile(“<a href=//“([^//“]*)//”(.*)?>(.*)?</a>,Pattern.DOTALL|Pattern.MULTILINE)
上面的Pattern可以匹配出<ul>里的<a>标签,“<a href=”表示匹配标签以此开头;“//“([^//“]*)//””表示href属性的值,也就是超链接的地址;“(.*)?>”表示<a>标签的其它属性;“(.*)?</a>”表示<a>标签的内容以及结束标志;“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数,表示此正则表达式可以进行多行匹配,并且对字母大小写不敏感。
4.根据权利要求1所述的一种基于主题的Web页面清洗方法,其特征在于,步骤五对待清洗页面进行清洗预处理的方法如下:
(1)规定“噪音”内容范畴;
一般旅游信息数据都存在于页面的正文段落、列表和表格中,同时考虑其它必要信息的提取,最后得出页面匹配需要抽取的常见标签大致有如下几种:<Meta>、<a>、<p>、<dl>、<ul>、<table>;清洗后的页面必须符合以下规范:
(a)标签的封闭符“<”和“>”,只能出现在包含网页标签的地方,如有其它用途,必须使用它们的转义字符“<”和“>”代替;
(b)标签的属性值如果存在,则必须把它们放在成对的单引号之间;
(c)标签的嵌套顺序必须是正确的;
(d)网页中的单标记节点,末尾都必须加标签闭合标志“<.../>”;
(e)如果不是单标记节点,那么标签必须由起始标签和结束标签组成;“<...>”和“</...>”;
(2)剔除属于“噪音”内容的页面标签及其内容;
将“噪音”标签做为标签边界生成匹配抽取规则进行清洗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310378986.1/1.html,转载请声明来源钻瓜专利网。