[发明专利]一种基于主题的Web页面清洗方法有效

申请号：	201310378986.1	申请日：	2013-08-27
公开（公告）号：	CN103440315A	公开（公告）日：	2013-12-11
发明（设计）人：	沈琦;宋清明;张猛;汤艳	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题 web 页面清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题的Web页面清洗方法，其特征在于，直接在页面中抽取有用信息，针对Web页面标签的复杂多样性和局部固定性，采用正则表达式直接匹配和抽取需要的标签，保留有用信息并自动剔除掉无用信息；包括以下步骤：

步骤一，确定主题领域：人工采集和选取多个样本页面进行分析，提取出关键词，由关键词确定页面内容的主题范围，最终确定主题领域；

步骤二，采集样本页面，并对样本页面的网页结构进行分析，确定页面元素树形结构；

步骤三，确定包含即将抽取的主题内容的抽取内容标签边界<ul>；

步骤四，根据标签边界定义正则表达式匹配规则，利用多个抽取规则组成抽取规则模板；

步骤五，对待清洗页面进行清洗预处理，剔除容易分辨的“噪音”内容；

步骤六，利用已生成的抽取规则模板进行页面清洗，得到清洗后的页面。

2.根据权利要求1所述的一种基于主题的Web页面清洗方法，其特征在于，步骤二采集样本页面不需要使用传统的页面清洗方法，一步步分析清除掉不需要的内容块直至保留需要的内容块，而只需要把<dl>与</dl>之间的内容直接匹配出来即可，这样同样达到保留所需信息，过滤“噪声”信息的页面清洗目的。

3.根据权利要求1所述的一种基于主题的Web页面清洗方法，其特征在于，步骤四定义正则表达式匹配规则分为两步进行，每一步都需要定义一个Pattern对象：

（a）匹配外层<ul>标签；

（b)针对（a）的匹配结果匹配内层的<a>标签并抽取其内容；

第一个Pattern对象构造的正则表达式抽取规则如下：

Pattern pattern1=Pattern.compile(“<ul([^>]*)>(.*)？</ul>”,Pattern.DOTALL|Pattern.MULTILINE)

上面的Pattern可以把整个<ul>标签从页面中匹配出来，其中“<ul”表示该匹配标签以此开头；“（[^>]*）”表示可以匹配除“>”以外所有的字符，可以出现任意多次，并且对其进行分组，实际代表ul标签的属性；“(.*)？”表示ul标签体的内容，就是需要采集的信息块；“</ul>”是ul标签的结束标志；后面的“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数，表示此正则表达式可以进行多行匹配，并且对字母大小写不敏感；

第二个Pattern对象构造的正则表达式抽取规则如下：

Pattern pattern1=Pattern.compile(“<a href=//“([^//“]*)//”(.*)？>(.*)？</a>,Pattern.DOTALL|Pattern.MULTILINE)

上面的Pattern可以匹配出<ul>里的<a>标签，“<a href=”表示匹配标签以此开头；“//“([^//“]*)//””表示href属性的值，也就是超链接的地址；“(.*)？>”表示<a>标签的其它属性；“(.*)？</a>”表示<a>标签的内容以及结束标志；“Pattern.DOTALL|Pattern.MULTILINE”是compile方法的可选参数，表示此正则表达式可以进行多行匹配，并且对字母大小写不敏感。

4.根据权利要求1所述的一种基于主题的Web页面清洗方法，其特征在于，步骤五对待清洗页面进行清洗预处理的方法如下：

（1）规定“噪音”内容范畴；

一般旅游信息数据都存在于页面的正文段落、列表和表格中，同时考虑其它必要信息的提取，最后得出页面匹配需要抽取的常见标签大致有如下几种：<Meta>、<a>、<p>、<dl>、<ul>、<table>；清洗后的页面必须符合以下规范：

（a）标签的封闭符“<”和“>”，只能出现在包含网页标签的地方，如有其它用途，必须使用它们的转义字符“<”和“>”代替；

（b）标签的属性值如果存在，则必须把它们放在成对的单引号之间；

（c）标签的嵌套顺序必须是正确的；

（d）网页中的单标记节点，末尾都必须加标签闭合标志“<.../>”；

（e）如果不是单标记节点，那么标签必须由起始标签和结束标签组成；“<...>”和“</...>”；

(2)剔除属于“噪音”内容的页面标签及其内容；

将“噪音”标签做为标签边界生成匹配抽取规则进行清洗。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载