[发明专利]Web信息抽取方法有效

专利信息
申请号: 201610005979.0 申请日: 2016-01-05
公开(公告)号: CN105677638B 公开(公告)日: 2018-10-09
发明(设计)人: 沈琦;刘泽伟;李婧;陈博;王宇 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: web 信息 抽取 方法
【说明书】:

Web信息抽取方法属于互联网技术领域。如何才能从冗杂的Web页面中抽取出需要的信息已经成为多数研究者希望解决的问题。Web信息抽取方法:基于特征比较法建立抽取规则的过程中计算结点相似度,具体步骤选择数据项特征,构建数据项特征,计算相似度;深度遍历整个DOM树完成后,就计算出了所有结点的综合相似度S,最终得到综合相似度S最大的结点,就是需要找的相似结点;相似结点对于的内容就是待抽取信息。本文针对互联网上煤矿安全事件信息的特点,提出了面向煤矿安全事件的Web信息抽取方法,为用户提供更加快速、准确的煤矿安全事件信息服务。

技术领域

发明借助Web信息抽取技术,以煤矿安全事件为主题,运用研究和改进的Web信息抽取相关技术,实现一个煤矿安全事件Web信息抽取系统,给人们获取煤矿安全事件信息带来便利,很好的适应了社会发展的需要。

背景技术

随着网络通信技术和个人计算机技术的迅猛发展,Internet已是名副其实的一个世界级的、庞大的、跨平台的、分布式、动态和交互信息分享平台。于此同时,互联网上的信息和资源增长速度也超乎想象,并出现了一些“混乱”的迹象,使用者为了搜索一些有用的资源,也许要浪费非常多的精力去查找web页面,导致web资源的利用率严重的降低。要避免这种情况,急需出现某种智能的软件工具来协助用户快速地在大量的web资源库中定位到对自己有用的信息,在这用环境下,人们就开始探索如何抽取web信息的方式和方法。

信息抽取(Information Extraction:IE)就是将文本里面所蕴涵的信息,用结构化的方式进行加工,将其转化成和表格类似的形式。研究人员对IE的探索已历经了十多年,它最初的目的是将指定的文本信息从自然语言所描述的文档中抽取出来,它隶属于自然语言处理领域。各个领域的研究者也试探着把IE技术与本领域相结合并加以利用,但是在煤矿安全领域里,运用IE技术获取煤矿安全信息的研究尚不够充分。

中国是全球一个主要的煤炭生产大国,煤矿灾难的发生率和百万吨死亡率也比其他国家高很多。中国煤矿最多的五类灾难性事故包括:瓦斯、顶板、水灾、火灾、运输,每当这些灾难性事故出现后,就会出现许多的与之相关联的报告,怎样从这些嘈杂的报告中检索到用户需要的准确的信息,其精度和难度都非常大。假如能挖掘出这些事故信息之间的关联,并对这些事故信息进行整合、抽取,最终展现给用户最有含金量的信息,这是一件非常有价值的工作。

煤矿安全网站逐步发展,并且从内容和质量来看也越来越成熟,怎样从巨大的煤矿安全事件信息资源库中检索到用户需要的信息,就成了目前煤矿安全领域一个急需解决的问题。

发明内容

基于煤矿安全事件Web信息抽取方法,主要包含三个部分的内容:

一.基于JTidy和HTMLParser的页面清洗技术。

通过结合JTidy和HTMLParser技术,采用三个步骤完成页面的清洗工作,这三个步骤为:①规范化HTML标签;②精简XHTML标签;③构造HTML结构树。

二.基于中介真值程度度量的页面主题提取技术。

Web页面经过上一步清洗后,再利用基于中介真值程度度量的页面主题提取技术,抽取出页面的主题内容。

三.基于页面主题和DOM的Web信息抽取技术。

Web页面经过上一步提取主题信息后,接下来就是对页面信息进行抽取。信息抽取过程中的关键步骤就是建立信息抽取规则。生成抽取规则分为两步,第一步需要用特征比较定位待抽取信息,第二步是对待抽取信息的路径进行转换,并生成符合xsl格式规范的抽取规则。

基于煤矿安全事件Web信息抽取技术中的主要特征在于:基于特征比较定位待抽取信息,这个过程分为以下两步完成。

Web信息抽取方法,其特征在于分为以下两步完成;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610005979.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top