[发明专利]一种基于网络的大数据处理方法在审
申请号: | 201410348409.2 | 申请日: | 2014-07-21 |
公开(公告)号: | CN104182465A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 贾岩 | 申请(专利权)人: | 安徽华贞信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 程笃庆;黄乐瑜 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 数据处理 方法 | ||
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于网络的大数据处理方法。
背景技术
信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。
近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。
在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一,也是一项关键。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于网络的大数据处理方法,可有效抽取网页数据,并对重复信息进行归一,方便用户对网页数据的有效利用。
本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括:
根据预期目标定制数据采集网页;
根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;
对网页数据进行统一编码,将重复数据归一,筛选数据;
根据预制分类模型将数据分为N个数据类;
根据预制聚类算法对数据进行聚类;
根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。
优选地,根据预期目标定制数据采集网页,包括:
预制行业内网页作为数据源;
设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点;
优选地,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:
对每一段文本进行编码;
根据编码进行分段对比,判断数据重复程度;
将重复数据归一,筛选数据。
优选地,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:
对N个数据类进行聚类;
对每一个数据类内所包含的数据进行聚类。
本发明抽取网页数据的方式,效率高,查全率好,避免信息遗漏;能够有效消除重复信息,大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量,提高数据处理效率;预制分类模型和聚类算法,对数据进行分类和聚类分析,数据统一存储建立数据库并建立数据库索引,方便用户对抽取数据的管理、检索和利用。
附图说明
图1为本发明提出的一种基于网络的大数据处理方法的流程图。
具体实施方式
参照图1,本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括以下步骤:
根据预期目标定制数据采集网页;
根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;
对网页数据进行统一编码,将重复数据归一,筛选数据;
根据预制分类模型将数据分为N个数据类;
根据预制聚类算法对数据进行聚类;
根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。
本实施方式中,自动抽取网页数据,效率高,采集数据较为全面,避免信息遗漏,将数据统一编码进行重复数据归一后,大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量。本实施方式中,将数据进行分类和聚类,然后根据分类和聚类结果建立数据库索引,方便用户对抽取数据的管理、检索和利用。
本实施方式中,根据预期目标定制数据采集网页,采集网页的来源有两种方式,分别为:
预制行业内网页作为数据源;
设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点。
数据源的预制可重点关注用户预期的网页,使得网页数据的抽取方向更加具有针对性,有利于提高数据采集效率。采集点可算是对数据源的补充,提高数据采集的查全率。数据源与采集点的互补,可使得数据采集效率和查全率达到一个比较理想的平衡。
本实施方式中,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:
对每一段文本进行编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司;,未经安徽华贞信息科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410348409.2/2.html,转载请声明来源钻瓜专利网。